Nature子刊 | 加州理工学院利用脑机接口实时解码内心言语|神经元

分享至

语音脑机接口（BMIs）将大脑神经信号转换为单词或音频输出，能够让因疾病或受伤而失去语言能力的人能够进行交流。虽然在语音、尝试和模拟语音解码方面取得了重要进展，但内部语音解码的正确率很低，尚未实现实际运用。值得注意的是，目前还不清楚大脑的哪些区域可以被解码。在本文中，两名四肢瘫痪患者在边缘上回（SMG）和初级躯体感觉皮层（S1）植入微电极阵列，他们对6个单词和2个假单词进行内部和发声语音。在两名参与者中，我们发现在SMG的单个神经元和群体水平上，内部和发声言语的显著神经表征。从SMG记录的人口活动，内部口语和发声单词明显可解码。在离线分析中，每个参与者的平均解码准确率分别为55%和24%（概率水平为12.5%），在在线内部语音BMI任务中，我们的平均准确率分别为79%和23%。在参与者1中发现了内部言语、单词阅读和发声语音过程之间共享神经表征的证据。SMG代表单词和伪词，为语音编码提供了证据。此外，我们的解码器通过多种内部语音策略（听觉想象/视觉想象）提高了分类准确度。在两个参与者的实验中，S1的活动被发声调节，而不是内部言语调节，这表明在内部言语产生过程中没有发生声道的发音运动。这项工作代表了一个高性能的内部语音BMI的概念证明。

群体活动代表了对单个单词的选择性调谐

SMG中的群体分析反映了单一神经元的激活模式，表明了在主动任务阶段的调谐增加（图1a，d）。一个神经元对一个单词的调整是通过拟合一个在50毫秒时间窗口内的线性回归模型来确定放电速率的方法。观察到参与者1和参与者2之间的差异。具体来说，参与者1表现很好，而参与者2明显较差。基于这些发现，我们专门对参与者2进行书面提示任务。在参与者1中，听觉提示的表征低于书面提示（图1b，提示）。然而，这种差异在其他任务阶段没有观察到这种差异。在这两个参与者中，S1中被调谐的群体活动在发声言语期间增加，但在提示和内部言语阶段没有增加。

图 1神经元群体活动调节单个单词

为了定量比较不同阶段之间的活动，我们通过检查不同任务阶段的平均放电速率的变化来评估单个单词的不同反应模式（图1b，e）。在两名参与者中，提示阶段和内部言语阶段的调谐显著高于他们之前的休息阶段ITI和D1(阶段之间的配对t检验。对于参与者1，我们也观察到对语音的调谐明显高于对D2的调谐。在每个阶段观察所有单词的表示（图1、f）。

为了识别对独特单词具有选择性活动的神经元，我们进行了Kruskal-Wallis测试。结果反映了两个参与者的回归分析结果，尽管参与者2中较差。这些发现表明，虽然活跃阶段的神经活动与ITI阶段的活动不同，但对于参与者2，只有少数不同的神经元的神经反应不同。

SMG中的神经群体同时代表了语言处理的几个不同方面：时间变化、输入模式（听觉，为参与者1编写）和我们的词汇表中的独特单词。我们使用分解主成分分析（dPCA）来分解和分析每个单独成分的贡献：时间、提示形态和单词。在图2中，通过将数据投影到各自的dPCA解码器轴上，绘制出了解释最高方差量的分解主成分（PCs）。

对于参与者1，“时间”成分显示，SMG的时间动态在所有活动阶段都达到峰值（图2a）。相比之下，时间S1调制仅在发声产生时达到峰值，表明参与者在其他任务阶段缺乏同步的嘴唇和面孔运动。虽然“提示模式”成分在提示阶段是可分离的（图2b），但它们在随后的阶段存在重叠。因此，内部和发声的语音表征可能不受提示模式的影响。伪词与词汇词具有相似的可分性（图2c)。单词之间的解释方差在SMG中很高，在S1中接近于零。在参与者2中，任务的时间动态被保留了下来（“时间”部分）。然而，与单词的差异减少了，这表明参与者2中神经元代表单个单词的能力较低。在S1中，结果与参与者1中S1的结果一致（图2e，右图）。

内部语音在SMG中是可解码

内部和发声语音过程的可分离的神经表征表明，SMG是实时语音BMI设备的神经活动的丰富来源。单词的可解码性与被调谐神经元的百分比（图1a，f）以及被解释的dPCA方差（图2c，e）相关。在参与者1中，我们的词汇表中的所有单词都是高度可解码的，平均55%的离线解码和79%（16-20次训练试验）从内部语音中的神经元在线解码（图3a，b）。在发声阶段说的单词也具有高度的可辨别性，平均离线时占74%（图3a）。在参与者2中，离线内部语音解码平均为24%（补充图2b），在线解码平均为23%（图3a），优先表示单词“勺子”和“游泳”。

图 2 强调SMG参与语言处理的dPCA

在参与者1中，来自两种提示类型（听觉和书面）的试验数据被连接起来进行离线分析，因为SMG活动只在提示阶段的提示类型之间可区分(图1a和2b)。结果是每种情况下有16次试验。在训练数据集上通过主成分分析（PCA）选择特征，并保留能够解释95%方差的pc。采用留一判别交叉验证（CV）对线性判别分析（LDA）模型进行评价。通过将结果与零分布进行比较来计算显着性（方法）

重要字解码观察在所有阶段，除了在ITI阶段（图3，n=10，平均解码值高于99.5%的平均解码值是P < 0.01，每个阶段，Cohen's d= 0.64,6.17,3.04,6.59、3.93和8.26，平均值的置信区间± 1.73、4.46、5.21、5.67、4.63和6.49）。与休息阶段ITI、D1和D2相比，提示、内部语音和语音条件下的解码精度显著提高(图3a，配对=检验、n = 10、d.f.9，对于所有的P <为0.001，cohen的d=为6.81,2.29和5.75)。显著的提示阶段解码表明，模态独立的语言表征在任务的早期出现。内部语音解码的平均离线率为55%，最高的会话为72%（图3a，红线）。语音语音平均更高为74%。所有的单词都是高度可解码的（图3c）。从我们的dpca结果可以看出，在s1中，单个单词不能从神经活动中显著解码，这表明在s1臂区域的发声语音的普遍活动（图2c）。

高精度在线语音解码器

我们开发了一个使用8个单词词汇表的在线闭环内部语音BMI（图3b）。在三个单独训练日，使用书面提示任务生成训练数据集，每个参与者每个单词重复8次。在训练集的内部语音数据上训练一个LDA模型，每个类每次重复只对应1.5 s的神经数据。经过训练的解码器可以预测在线任务中的内部语音。在在线任务中，发声语音阶段被替换为一个反馈阶段。如果解码正确，被解码的字显示为绿色，如果解码错误，则显示为红色。

准确性显著高于对照组在训练模型时添加的数据越多，平均每个单词重复16-20次，获得79%的分类准确率。最高的单次运行准确率为91%。所有的单词都能很好地表示出来，用304次试验的混淆矩阵来表示（图3d）。在参与者2中，解码具有统计学意义，但低于参与者1。较低的调谐单元数（图1a，f）和减少的单词之间的解释方差（图2e，左图）可以解释这些发现。此外，还观察到了“勺子”和“游泳”一词的优先表示。

图 3 在SMG中，单词可以在内部语音中被显著地解码

内部言语、书面文字和发声言语之间的共享表征

在任务中涉及不同的语言过程：提示阶段的听觉理解或视觉单词识别，以及语音阶段的内部语音和发声语音的产生。人们普遍认为，这些过程都是一个高度分布网络的一部分，涉及多个皮层区域。

在这项工作中，我们观察到在参与者的共同皮层区域SMG中不同语言过程的显著表征。为了探索这些过程之间的关系，对于参与者1，我们使用跨阶段分类来分别识别听觉和书面提示数据集中不同和共同的神经代码。对我们的分类器在一个阶段（例如，提示阶段）中发现的表示上进行训练，并在另一个阶段（例如，内部语音）上测试分类器，我们量化了我们的模型在不同语言过程的神经活动中的通用性（图4）。分类精度之间无显著差异，说明模型泛化效果良好，而分类精度显著较低，说明模型泛化效果较差。

在视觉单词识别、内部语音和发声语音之间发现了最强的共享神经表征（图4b）。一个经过内部语音训练的模型高度适用于发声语音和书面提示词，这是可能共享神经信息的证据（图4b，内部）。相比之下，在听觉提示阶段记录的数据上，模型的表现显著降低(图4a)。这些差异可能源于在比较视觉和听觉语言刺激时所固有的挑战，它们的处理时间不同：文本的瞬时刺激和听觉刺激的几百毫秒刺激。

我们评估了一个分类模型的能力，该模型最初训练在内部阶段和提示阶段，以区分单词的能力（图4a，b，训练阶段语音）。该模型在内部语音和对书面提示的反应中表现出相似的泛化水平，这表明在内部和书面提示阶段之间的解码准确性缺乏显著性（图4b，训练阶段语音，提示-内部）。然而，该模型在内部言语中的普遍性明显优于在听觉提示阶段观察到的表征(图4a)。

在单神经元水平上，单词的内部语音表征与发声语音和书面提示阶段高度一致。很大比例的神经元不仅在相同的任务阶段保持活跃，而且对至少一个单词保持了相同的调谐（图4c，d）。总的来说，82-85%的在内部言语中活跃的神经元在发声言语中也很活跃。在71-79%的神经元中，内部语音和发声语音阶段之间的调谐被保留（图4c）。在提示阶段，78%的在内部言语中活跃的神经元在书面提示中也很活跃（图4d，右）。然而，在听觉提示阶段，神经元活跃的神经元比例较低（47%）（图4d，左）。同样，71%的神经元保留了书面提示阶段和内部语音阶段之间的调谐，而42%的神经元保留了听觉提示阶段和内部语音阶段之间的调谐。

图 4 内部语音、发声语音和书面文字处理之间的共享表征

在SMG内部的多种内部语音策略的鲁棒解码

参与者1中书面、内在和发声言语之间强烈的共享神经表征表明，这三个言语部分代表相同的认知过程，或者所有的认知过程都有共同的神经特征。虽然内部言语和发声言语已被证明具有共同的神经特征，但内部言语和书面提示之间的相似性可能是通过几个不同的认知过程发生的。例如，参与者对书面提示的观察可能激活了无声阅读。这个过程被自我报告为激活了内部言语，这可能涉及到“听到”一个声音，因此有一个听觉成分。然而，参与者也可以在进行内部语言时，在心里描绘出一幅书面文字的图像，除了语言过程外，还包括视觉想象。这两种假说都可以解释书面提示和内部语音阶段之间大量的共享神经表征（图4b）。

因此，我们比较了参与者1的两种可能的内部感官策略：一种是“声音想象”策略，参与者想象听到单词，另一种是“视觉想象”策略，参与者可视化单词的形象。为了评估这些内部语音过程与其他任务阶段的相似性，我们进行了跨相位解码分析（如图4所示）。我们假设，如果内部提示阶段和书面提示阶段之间的高交叉解码结果主要来自于参与者参与视觉单词想象，我们将在听觉想象阶段观察到较低的解码精度。

这两种策略都显示了四个单词数据集的高代表性。这些结果表明，我们的语音BMI解码器对多种类型的内部语音策略是稳健的。参与者描述“声音想象”策略更容易，更类似于第一个实验的内部语言条件。参与者的自我报告策略表明，在内部言语过程中没有进行视觉想象。相应地，书面提示和内部言语阶段之间的相似性可能来自于沉默阅读提示过程中的内部言语激活。

结论

我们描述了SMG和S1神经元群体中四种不同语言过程的神经表征：听觉理解、单词阅读、内部言语和发声语音产生。本文中，内部言语指的是在内部使用一个提示的单词，没有相关的运动输出，而发声言语指的是听觉发声一个提示的单词。参与者在抓握定位fMRI任务的基础上，参与者被植入SMG和S1（图5）

图 5 多电极植入位置

该任务包括六个阶段：一个试验间隔（ITI）、一个提示阶段（提示）、第一个延迟（D1）、一个内部语音阶段（内部）、第二个延迟（D2）和一个发声语音阶段（语音）。单词提示使用听觉或书面版本的单词（图6a)。其中六个字是由裁判提供（战场，牛仔，蟒蛇，勺子，游泳和电话）。我们添加了两个伪词（nifzig和bindip）来探索SMG中的语音表示。第一个参与者完成了10天的实验，由听觉和书面提示任务组成。第二个参与者完成了9个阶段，只关注书面提示任务。

图 6 SMG中的神经元代表语言过程

对于这四种语言过程中的每一种，我们都观察到了对单个神经元放电率的选择性调节（图6b-e）。一般来说，神经元的放电率在活动阶段（提示、内部和言语）增加，而在休息阶段（ITI、D1和D2）下降。在神经群体中存在多种激活模式。我们选择了一些示例神经元来证明在内部语音、提示和发声语音中放电率的增加。听觉（图6b)和书面提示（图6c-e）在内部言语过程中都诱发了单个神经元的高度调节的放电速率。

这些典型的激活模式在单次试验水平上很明显（图6b-e）。当听觉记录被单次试验的放电率覆盖时，观察到一种异质性的神经反应，在发声期间，一些SMG神经元先于或滞后于听觉峰值水平。相比之下，来自初级感觉皮层（S1）的神经活动只在发声的言语中进行调节，并产生类似的放电模式，无论发声的单词如何。

参考文献：

Wandelt, S.K., Bjånes, D.A., Pejsa, K.et al. Representation of internal speech by single neurons in human supramarginal gyrus. Nat Hum Behav (2024). https://doi.org/10.1038/s41562-024-01867-y

—— End ——

仅用于学术分享，若侵权请留言，即时删侵！

点击投稿：

欢迎加入脑机接口社区交流群，

探讨脑机接口领域话题，实时跟踪脑机接口前沿。

加微信群：

添加微信:RoseBrain【备注：姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询，请联系微信：RoseBrain

点击投稿：

2.加入社区成为兼职创作者，请联系微信：RoseBrain

一键三连「分享」、「点赞」和「在看」

不错每一条脑机前沿进展 ~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.