网易首页 > 网易号 > 正文 申请入驻

脑机启侦 | 瞬时语音合成神经假体:ALS患者10ms内实现可懂发声

0
分享至



肌萎缩侧索硬化症(ALS,俗称 “渐冻症”)常导致患者逐步丧失发声能力。传统脑机接口(BCI)虽能实现基础沟通,但难以还原自然语音的语调、节奏与个性表达。2025年,加州大学戴维斯分校联合布朗大学、哈佛医学院等机构的研究团队,在《Nature》发表里程碑式成果,首次通过AI算法解码大脑运动皮层神经信号,实时生成自然流畅的语音,为失语者重建语言连接开辟了新路径。

01 研究背景

脑机接口(BCIs)有望为因神经疾病或损伤而丧失说话能力的人恢复交流功能。脑机接口已被用于将尝试说话时的神经关联转化为文本。然而,文本交流无法捕捉人类言语中的细微差别,比如韵律以及即时听到自己的声音。

本文展示了一种脑到语音神经假体,它通过解码植入肌萎缩侧索硬化症伴严重构音障碍患者ventral中央前回的256个微电极所记录的神经活动,即时合成带有闭环音频反馈的声音。克服了缺乏训练神经解码器所需的真实语音这一挑战,成功准确合成了患者的声音。除了音位内容,还能从皮质内活动中解码出副语言特征,使参与者能够实时调节其脑机接口合成的声音,改变语调并演唱简短旋律。这些结果证明了让瘫痪患者通过脑机接口清晰且富有表现力地说话的可行性。

02 研究概述

(1)ALS 患者的脑机接口植入方案:

研究选取1名45岁左利手ALS患者(T15),其ALS症状持续5年,存在严重构音障碍(无法清晰发声但可发声),ALSFRS-R评分为23分,依赖辅助设备交流。通过手术在患者左侧前中央回植入4个64电极硅微电极阵列(Utah array,总长1.5mm,铱氧化物涂层),覆盖腹侧运动前皮层、背侧运动前皮层、初级运动皮层及中央前回中部(图1a,b),基于Human Connectome Project pipeline 定位语言优势半球。电极通过经皮连接基座传输信号,数据采集时段为植入后25-489天,采用Neuroplex-E系统进行信号数字化处理。




图1 脑-声神经假体的硬件布局

(2)神经信号处理与解码模型:

■ 信号采集与预处理:原始神经信号采样率30kHz(分辨率250nV),滤波范围0.3-7.5kHz,通过4阶零相位巴特沃斯滤波(250-5000Hz)、线性回归参考去噪,提取1ms段的阈值交叉(-4.5倍均方根)和尖峰带功率特征,经10ms非重叠分箱、对数变换、滚动归一化及因果平滑处理,形成512维特征向量(图 2c)。

■ 解码器设计:采用基于Transformer的多层模型,含输入嵌入网络(2 个全连接层)和8个Transformer编码器块,输入为600ms滑动窗口(60×512 维),输出20维语音特征(18个巴克倒谱系数、基音周期及基音强度),训练采用Hubert损失函数,批量大小1024,训练时长20-40小时(3块NVIDIA RTX 3090)。

■ 目标语音生成:因患者无清晰发声基准,通过文本到语音算法生成合成语音,基于神经活动识别音节边界,经动态时间规整实现语音与神经信号的时间对齐(图2d);个性化语音合成采用StyleTTS 2模型克隆患者 ALS 前声音。

■ 实时合成流程:通过LPCNet声码器将 20 维特征扩展为 36 维向量,每 10ms 生成 1 帧语音波形(16kHz 采样),全程延迟 < 10ms,实现闭环音频反馈(图 2e)。


图2 信号处理 pipeline 及目标语音生成方法

(3)实验任务设计:

实验在患者家中开展,采用 “延迟期(1.5-4s,文本提示)- 执行期(绿色提示,尝试发声)- 结束期(眼动触发)” 的试次结构,单试次含约 50 个任务块,具体任务包括:①提示句发声(独特句子,无重复);②无声模仿发声(仅做口型不发声);③自由应答(开放式问题回应或自主表达);④特殊发声任务(拼写字母、伪词发声、感叹词表达);⑤语调调制任务(陈述 / 疑问转换、句子中单词强调);⑥三音高唱歌任务(6-7 个音符,低 / 中 / 高 pitch 组合)(图 2、3)。所有任务均开启闭环语音合成反馈,部分任务搭配文本解码作为字幕辅助。

(4)实验结果:

通过 256 个微电极阵列采集左侧前中央回神经信号,基于 Transformer 解码器实现 < 10ms 延迟的闭环语音合成,合成语音与目标语音的皮尔逊相关系数达 0.83±0.04(40 个梅尔频率带)。人类评估中,956 个提示句的转录匹配准确率中位数 100%,开放式转录的音素错误率(PER)中位数 34.00%、词错误率(WER)中位数 43.75%,远优于患者残余构音(PER 83.87%、WER 96.43%)(图 3l)。系统可泛化至无声模仿发声(相关系数 0.82±0.03)、自由应答(0.79±0.05),还能合成伪词、感叹词及个性化语音(图 3g-i),且对咳嗽、背景噪音等具有鲁棒性(图 3)。


图3 多场景发声任务的合成性能验证

成功解码神经信号中的语速、语调、音调等副特征,实现多维度语音调控。语速调控中,快速发声(平均 0.97±0.19s / 词)与慢速发声(1.46±0.31s / 词)的时长分布差异显著(P=10⁻¹⁴)(图 4a-b);疑问语调调制准确率 90.5%,单词强调调制准确率 95.7%(图 4e、g);三音高唱歌任务中,合成音调可区分低 / 中 / 高三个等级,人类听众对音调对的分类准确率达 73.02%(图 4i),统一解码器也能实现连续音调合成(图 4j-k)。


图4 语言副特征的闭环调制效果

将神经活动分解为输出有效维度(与语音特征时间对齐)和输出无效维度(间接参与行为输出),后者占总方差 97.5%,且解码语音的相关系数达 0.85±0.07(图 5a)。输出无效活动在句子进程中逐渐衰减,而输出有效活动保持稳定(图 5c);在语调调制时,目标单词的输出无效活动显著增强(P=10⁻²¹)(图 5b、d),提示其参与语音准备和调制的神经计算。


图5 言语产生的神经动力学机制

03 研究意义

文章首次实现<10ms 低延迟闭环语音合成,解决了 speech-impaired 患者缺乏真实语音训练数据的关键痛点(通过神经信号对齐音节级合成语音);突破传统文本输出 BCI 的局限,直接映射神经活动至声学特征,支持伪词、感叹词、个性化语音等无限制发声,且对背景噪音、非言语发声具有强鲁棒性,为 BCI 从 “辅助沟通” 迈向 “自然表达” 奠定技术基础。

针对 ALS 等神经疾病导致的严重构音障碍,不仅将患者言语可懂度从残余构音的 WER 96.43% 提升至 43.75%,更实现语调调制(疑问 / 陈述切换准确率 90.5%)、单词强调(准确率 95.7%)、三音高唱歌等副特征控制,还原人类 speech 的情感与语义层次;支持无声模仿发声、自由应答等真实场景使用,降低患者发声疲劳,满足日常交流与自我表达需求。

首次证实腹侧前中央回的皮层活动同时编码音素信息与副语言特征,且输出无效神经维度(占总方差 97.5%)参与言语准备与调制,其动态变化(句子进程中衰减、调制时增强)为理解 “言语规划 - 执行” 的神经计算提供新视角,补充了人类运动皮层言语编码的认知图谱。

公开数据(Dryad)与代码(GitHub),建立 “神经特征提取 - 因果解码 - 声码器合成 - 闭环反馈” 的完整 pipeline,支持少量数据快速训练(50 词词汇量首日即可合成);验证了统一解码器整合音素与副特征的可行性,为后续针对失语症、闭锁综合征等其他言语障碍的 BCI 研发提供标准化模板。

文章来源:10.1038/s41586-025-09127-3

浙大科技园启真脑机智能产业化基地是在浙大控股集团领导下,由浙江大学科技园发展有限公司与杭州未来科技城管委会共建,围绕脑机智能产业主体,辐射脑机+生命健康、脑机+智能制造、脑机+新一代信息技术、脑机+新材料等领域的专业化特色产业基地,由杭州启真未来科技发展有限公司负责全面运营。

基地依托浙江大学在脑机智能方面的学科优势,以脑机智能作为核心科技支撑,贯彻浙江大学国家大学科技园“有组织科技成果转化、有靶向科技企业孵化、有体系未来产业培育”的服务体系,致力于打造脑机智能领域具备成果显示度、区域影响力的产业化高地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

新欧洲
2026-01-28 21:37:40
一位民间炒股高手告诉你:多年来只买两种股票,逢买就涨无例外!

一位民间炒股高手告诉你:多年来只买两种股票,逢买就涨无例外!

股经纵横谈
2026-01-27 20:13:06
2月开始,走出低谷,事业爱情同步回暖的三个星座

2月开始,走出低谷,事业爱情同步回暖的三个星座

小晴星座说
2026-01-30 19:06:54
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

华庭讲美食
2026-01-19 14:27:13
黑店靠谱!约克雷斯在阿森纳效率一般,“接班人”却打出火爆状态

黑店靠谱!约克雷斯在阿森纳效率一般,“接班人”却打出火爆状态

里芃芃体育
2026-01-30 07:46:03
北京台台长余俊生,已任中央广播电视总台党组成员

北京台台长余俊生,已任中央广播电视总台党组成员

广电视界
2026-01-30 15:11:34
东窗事发,就得死

东窗事发,就得死

求实处
2026-01-29 19:11:09
阿姨500万投资保险公司,17年后去银行取钱,她愣住了

阿姨500万投资保险公司,17年后去银行取钱,她愣住了

小秋情感说
2026-01-30 14:07:40
人社部重磅定调!养老金涨幅锁定2%,高龄老人优先受益

人社部重磅定调!养老金涨幅锁定2%,高龄老人优先受益

万物知识圈
2026-01-30 09:02:08
铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

通鉴史智
2026-01-29 19:55:43
19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

老马拉车莫少装
2026-01-29 21:27:05
这个头也太大了!霹雳-17超远程空空弹首次公开亮相,下一代高超音速空空弹要来了?

这个头也太大了!霹雳-17超远程空空弹首次公开亮相,下一代高超音速空空弹要来了?

军武速递
2026-01-30 18:55:50
这个朝代只有10年,却被膜拜了1000年

这个朝代只有10年,却被膜拜了1000年

最爱历史
2026-01-27 15:33:55
全球首发2nm芯片!三星Galaxy S26发布会海报偷跑:2月亮相

全球首发2nm芯片!三星Galaxy S26发布会海报偷跑:2月亮相

快科技
2026-01-30 14:41:06
春节不忙乱,这3道菜提前备好,简单一热就上桌,省事好吃寓意好

春节不忙乱,这3道菜提前备好,简单一热就上桌,省事好吃寓意好

江江食研社
2026-01-27 20:30:03
印军中将谈中印战争:解放军并没打败我们,我们是自己打败了自己

印军中将谈中印战争:解放军并没打败我们,我们是自己打败了自己

大运河时空
2026-01-29 14:10:03
南海发生激烈对峙!美军MQ-4C硬闯三亚以南空域,不料下一幕破防

南海发生激烈对峙!美军MQ-4C硬闯三亚以南空域,不料下一幕破防

沧海旅行家
2026-01-30 11:42:23
美国大军逼近!特朗普发出最后通牒……伊朗:随时准备扣动扳机

美国大军逼近!特朗普发出最后通牒……伊朗:随时准备扣动扳机

新民周刊
2026-01-29 20:05:51
朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

乐悠悠娱乐
2026-01-30 11:06:13
2026-01-30 19:55:00
浙大科技园脑机智能产业化基地
浙大科技园脑机智能产业化基地
聚焦脑机+生命健康、脑机+智能制造、脑机+新一代信息技术、脑机+新材料等领域。
915文章数 5关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

金银闪崩,是调整还是趋势反转的开始?

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

教育
房产
家居
艺术
游戏

教育要闻

南京市教育局校外培训机构“白名单”公布!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

家居要闻

蓝调空舍 自由与个性

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

《生化危机9》为何第一和第三人称视角能自由切换

无障碍浏览 进入关怀版