![]()
上海的研究人员在11月5日发表于《科学进展》(Science Advances )杂志的一项研究中报告称,他们借助脑机接口(BCI)框架成功实现了对普通话的实时解码,这是BCI首次应用于声调语言。参与研究的受试者还能够利用这套新系统控制机械臂和数字虚拟形象,并与大型语言模型进行交互。
RESEARCH INTRODUCTION
BCI的读心功能是用来做什么的?
![]()
用于解码中文句子的实时 BCI 框架
虽然大多数人可能不希望电脑读取自己的想法,但那些因神经系统疾病(例如中风或肌萎缩侧索硬化症 (ALS))而无法说话的人,需要寻找其他沟通方式。能够解码神经信号的语音解码脑机接口 (BCI) 为这类人群恢复沟通能力提供了一种很有前景的途径。除了沟通之外,BCI 还提供了通过意念直接控制设备的方法。这对于那些除了语言障碍之外还伴有其他神经系统疾病的患者来说尤其有用。
这类设备并非什么新技术,但大多数脑机接口语音解码研究都集中在英语这种非声调语言上。
一种主流方法侧重于腹侧感觉运动皮层,该区域编码发音运动轨迹。来自该区域的神经信号可以转化为离散的语言单元或发音手势参数,并随后合成单词、句子或声音。这种策略尤其适用于言语运动区域功能完好的个体,旨在重新赋予其功能性沟通能力。
“英语语言解码方面的最新进展使得将大脑活动实时翻译成文本或语音成为可能,这可以帮助患有严重构音障碍的患者,这些障碍是由肌萎缩侧索硬化症(ALS) 或脑干中风等疾病引起的,”研究作者写道。
RESEARCH METHOD
克服普通话解码的困难
![]()
中文和皮层电极区分中文音节和声调的独特性。
脑机接口在解码声调语言(例如普通话)方面的进展较为有限。由于普通话是一种声调单音节语言,且同音词密度高,因此语音解码更具挑战性。此前的一些研究已经解码了部分普通话音节或声调,但并未涵盖实际应用所需的全部范围,也无法实现实时解码。
然而,一项针对癫痫患者的临床研究使参与这项新研究的研究人员能够采取不同的方法。该研究以一名43岁女性为对象,使用植入式256通道高密度脑电图(ECoG)阵列,在11天内通过一系列单字和句子阅读任务监测和记录神经信号。研究还整合了一个3元汉语语言模型以提高句子解码能力。
研究团队表示,对脑电图(ECoG)信号的分析揭示了音节和声调处理的不同神经关联。该系统在单字符任务中实现了71.2%的音节识别准确率。借助语言模型,实时句子解码的字符准确率达到了73.1%,通信速率为每分钟49.7个字符。
“我们的研究表明,将高密度、超共形脑电图(ECoG)阵列与以音节为中心的解码框架相结合,可以带来显著的改进。脑电图阵列提供了广泛而稳定的皮层覆盖,尤其是在与语音相关的区域,使我们能够以高精度解码394个普通话声调音节——这主要基于神经特征,无需任何语言后处理,”研究作者写道。
![]()
实时语音解码和基于语音的 BCI 用于控制多个软件和硬件系统。
RESEARCH SIGNIFICANCE
改进用于治疗言语障碍的BCI
虽然这项研究表明脑机接口在解码普通话方面有了显著改进,但作者也指出了一些局限性和需要改进的地方。该研究仅纳入了一名参与者,因此其结果的普适性有限。此外,由于脑电图阵列最初是为临床癫痫监测而设计的,其电极覆盖范围并未涵盖所有与音调相关的脑区。然而,未来的研究可以以此为基础,进一步提高准确性和普适性。
研究作者希望将脑机接口(BCI)的应用范围扩大到更多患者。他们表示:“除了提高解码准确率和硬件性能之外,扩展语音脑机接口的神经目标代表着一个令人兴奋的前沿领域。”
“尽管目前的方法主要利用负责发音的运动皮层和前运动皮层的信号,但未来的系统或许可以受益于整合更高阶语言区域(例如颞中回、额下回和缘上回)的活动。整合这些区域处理的语义和句法信息可能有助于构建更稳定、更准确的语音解码器。”
文章来源:Medical Press
论文参考:DOI:10.1126/sciadv.adz9968
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.