科学家用AI模型研发脑-声神经假体，语音解码能力媲美Siri|算法|信号|siri|语音识别|脑机接口

分享至

图片中的女子是一名患有失语症的瘫痪人士，她最近作为受试者参与了一项基于新技术的实验，在不依赖任何发声的前提下，该技术能够直接与她的发声意图同步合成语音。

在深度学习模型的帮助之下，本次技术能在 80 毫秒内合成语音，并能同时进行文本解码，语音解码能力媲美和 Siri 和 Alexa。利用受试者在无声尝试“模仿”或“张嘴”时的神经活动，无需任何发声即可合成来自于 1024 个单词词汇表的句子。即便在离线状态之下，解码器也能连续运行数分钟之久。相关论文于近日发表在Nature Neuroscience

语音解码能力媲美和 Siri 和 Alexa

这名女子所参与的实验，由来自美国加州大学伯克利分校和加州大学旧金山分校的一组研究人员完成。实验中，研究人员借助脑-声神经假体技术以及基于 AI 的模型，开发了一种流式处理方法。

这种流式处理方法能为神经假体带来了与 Alexa 和 Siri 等语音助手相同的快速语音解码能力，故能将脑信号接近实时地合成为能被人耳听到的语音，从而能够从人脑中实时传输可理解的语音，借此让这名严重瘫痪的患者恢复了自然语言交流能力。

通过使用类似类型的算法，研究人员发现它还可以解码神经数据，并能首次实现近乎同步的语音流传输，与此同时其还具备更自然、更流畅的特点。

本次方法还可以与各种其他脑机接口技术进行良好适配，比如微电极阵列技术或非侵入性记录技术等。

在其他无声语音数据集上，本次技术也能实现准确的大脑到语音合成，这说明这项技术并不局限于某一特定类型的设备。只要有良好的信号，同样的算法就能用于不同的模式。

这种脑-声神经假体的工作原理是：从大脑中控制言语产生的区域、即从运动皮层之中采集神经数据，然后利用 AI 将大脑功能解码为言语。

本质上，研究人员是在拦截信号。这些信号位于将思维转化为语言表达的过程中，以及在此过程中的运动控制阶段。因此，研究人员所解码的是在思维发生后、在决定说什么之后、在决定使用哪些词汇以及如何移动声道肌肉之后的信号。

为了收集训练算法所需的数据，研究人员与上述受试者开展合作。此前，这名患者由于脑干中风而导致严重瘫痪，自此以后她再也无法说话，并被诊断为失语症。

实验中，研究人员让受试者看着类似于“嘿，你好吗？”这样的屏幕提示词，然后让受试者尝试默念这句话。

这样一来，研究人员就能在受试者产生的神经活动窗口块和受试者试图表达的目标句子之间建立映射。

由于受试者无法发出声音，因此研究人员无法拥有目标音频或目标输出来映射神经数据。但是，他们使用 AI 填补了所缺失的细节，从而解决了这一难题。

具体来说，他们使用一个预训练的文本到语音模型来生成音频和模拟目标声音。同时，他们还使用了受试者患病之前的声音，这样一来解码输出的声音在音色上也就更加接近受试者患病之前的声音。

此前，在解码声音时往往存在较长的延迟，单句解码的延迟约为 8 秒。而本次研究采用新的流式处理方法，因此当受试者尝试说话时，可以近乎实时地生成可听见的输出。

为了测量延迟市场，研究人员采用了语音检测方法，以便识别出表明受试者开始尝试说话的大脑信号。

在意图信号出现后的 1 秒之内，系统就能发出首个声音。与此同时，本次技术能够持续解码语音，因此受试者可以持续地输出内容。

就参与本次研究的这名受试者来说，她在 2023 年就曾作为受试者参与过该团队的课题。那时，她参与的是文本到语音解码方法的实验。

相比之下，她在本次研究中尝试的新型流式合成方法，能够近乎实时地听到自己的声音，这增加了她的代入感。她表示，流式合成是一种更加能够受到意志控制的模式。

尽管实现了更高的速度，但却并没有以牺牲精度为代价。与之前的非流式处理方式相比，这种速度更快的脑机接口能够提供同样高水平的解码精度。

研究人员表示，以前人们并不清楚能否从大脑中实时地提取出可被理解的语音信号。同时，此前人们也并不清楚 AI 到底是在学习和适应，还是仅仅在进行模式匹配并重复训练数据中的部分内容。

为了厘清这一问题，研究人员测试了模型在训练数据集词汇之外的单词合成能力。具体来说：他们测试了 26 个来自北约音标字母表的生僻词，例如 Alpha、Bravo、Charlie 等。

这样做的目的是想看看模型能否针对未见过的单词进行泛化，以及是否能够真正地解码受试者的说话模式。结果发现：实时模型做得非常好，这表明它确实是在学习声音或学习语调的基本要素。

自然流式无声语音解码系统

研究中，研究人员设计了一款语音合成神经假体系统：通过植入受试者言语感觉运动皮层及部分颞叶表面的 253 通道皮层电图阵列采集神经信号，进而合成目标语音，使受试者能够实现自然流畅的语言表达。

为了针对系统进行训练，研究人员记录了受试者在尝试默念单个句子时的神经数据。

受试者会在屏幕上看到一个文本提示，并被要求在看到绿色的“开始”视觉提示后，立即尝试默念说话。

合成的语音会通过附近的模拟扬声器进行播放，解码后的文本则会显示在监视器上。

研究人员所使用的神经解码器采用双模态设计，其在接受联合训练之后，不仅可以合成语音，还能同步解码文本内容。

实验中，研究人员将高伽马活动和低频信号传输到自定义双峰解码模型，该模型在每次实验中从 GO 提示音的前 500 毫秒时，开始以 80 毫秒的增量处理神经特征，针对可听语音与文本进行同步解码。

在流式自动语音识别（ASR，automatic speech recognition）方法的启发之下，研究人员采用了循环神经网络转导器（RNN-T，recurrent neural network transducer）框架，这是一种灵活的通用神经网络架构，其特点在于无需依赖未来输入上下文。

同时，研究人员针对这一框架加以调整，以便能够从神经特征中实现流式语音合成和文本解码。

循环神经网络（RNN，recurrent neural network）能够实时处理神经特征，从而生成与语音内容相对应的编码向量。

在语音合成环节，这些编码通过自回归方式与流式声学语音单元语言模型相结合，从 100 个候选单元中生成下一声学语音单元的概率分布。

在文本解码环节，这些编码同样能以自回归方式与流式子词文本编码语言模型结合，进而能从 4096 个候选单元中生成下一子词文本编码的概率分布。

对于声学语音单元和文本编码，研究人员在推理过程中使用基于 RNN-T 的集束搜索算法来确定最有可能的标记。

所预测得到的声学语音单元，将被输入个性化语音合成器之中，进而生成与受试者发音尝试同步播放的波形片段。

为了克服因受试者无法产生可理解语音、而导致的神经数据与言语行为对齐难题，研究人员在训练过程中采用了 RNN-T 损失函数。

RNN-T 损失函数不仅能够建模输出声学语音单元/文本编码的概率分布，还能够建模二者之间的相互依赖关系。

在离线状态之下，研究人员针对架构中的流式语言模型加以训练，以便将其用于语音识别任务。在冻结该模块参数之后，再对系统的其余部分进行端到端训练。

研究中所使用的目标声学-语音单元，是使用 HuBERT 提取的。HuBERT 是一种自监督语音表示学习模型，它能将语音波形编码为一系列时间序列单元，这些单元能够捕捉语音波形潜在的语音和发音特征。

由于受试者无法说话，因此研究人员使用文本转语音模型生成了初始参考波形。

与此同时，研究人员训练了一款自回归声学-语音单元合成器，这个合成器能够针对声学-语音单元的持续时间进行建模，从而能够更好地匹配受试者的语速。

所合成的语音，基于受试者失去语言能力之前录制的一段简短语音片段。

为了评估系统性能，研究人员使用了小词汇量句子集“50-phrase-AAC”和大词汇量句子集“1,024-word-General”。

“50-phrase-AAC”专为表达基础护理需求而设计，包含预定义的标准化短语组合。“1,024-word-General”则是一个大词汇量复合句库，包含从 X 平台和从电影台词采样的 1,024 个独特单词所组成的 12,379 条独立语句。

在训练过程中，受试者几乎完整地针对语料库进行了两次遍历，期间共尝试了 23,378 次无声语音。

在训练过程中，每个句子至少被查看两次，并且部分句子还得到了多次收集，因此模型在训练期间平均会查看每个测试句子 6.94 次。

为测试神经解码器的泛化能力，研究人员额外评估了两类场景。第一种场景是评估词汇内新句式，即评估由已知词汇构成、但受试者从未接触过的句子。第二种场景是评估词汇外新词，即评估超出 1,024 词库范围的陌生单词。

与此同时，研究人员使用同一模型的文本解码部分来预测下一个文本片段，然后将其用于调整为该片段合成语音的文本转语音模型。

这种方案以牺牲语音自然度为代价换取了更高的可懂度。并且，只要所使用的语言模型与解码器，能够满足流式处理与因果性约束，那么在理论上就能够适配任何文本解码算法。

助力开发适合失语者日常使用的语音神经假体

总的来说，研究人员展示了一种语音解码方法，该方法能够实现低延迟的自然口语交流，同时能够输出语音和文本。对于利用脑机接口设备实现自然语音来说，这项工作解决了语音神经假体中长期存在的延迟问题，即受试者尝试说话与发出声音之间的时间差，对于让无法说话的人实现交流来说，本次成果迈出了关键一步。

在自然状态之下，人类的口语交流是即时进行的。哪怕只是超过几秒钟的言语延迟，就可能会打断对话的自然流畅性。这使得那些失语的瘫痪患者难以参与有意义的对话，从而可能会产生孤立感和挫败感。因此，对于改善严重瘫痪且言语受影响患者的生活质量来说，本次技术具有巨大潜力。

不过，这是一项仍在继续开展的研究，旨在探索究竟能在多大程度上从大脑活动中解码副语言特征。即便是在传统音频合成领域，这也是一个长期存在的问题，而解决这一问题将能弥合通往完全自然表达的差距。

未来，研究人员将继续优化算法，探索如何更好、更快地生成语音。具体来说，其将致力于为输出语音构建表现力，以便反映说话时语调、音高或音量的变化，例如反映说话者情绪激动时的声调特征，希望最终为开发适合失语者日常使用的语音神经假体奠定基础。

参考资料：

https://newatlas.com/medical-tech/brain-waves-spoken-words-ai-paralysis/

https://www.nature.com/articles/s41593-025-01905-6

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.