网易首页 > 网易号 > 正文 申请入驻

巴斯克大学首次实现大脑"听说"功能跨任务识别

0
分享至


这项由巴斯克大学HiTZ中心与巴斯克认知、大脑与语言中心联合开展的突破性研究,发表于2026年的arXiv预印本平台(论文编号arXiv:2602.18253v1),标志着脑机接口领域的一个重要里程碑。有兴趣深入了解的读者可以通过该编号查询完整论文。

脑机接口技术一直被认为是连接人脑与计算机的桥梁,特别是在帮助失语症患者恢复语言能力方面具有巨大潜力。然而,传统方法面临着一个根本性挑战:需要为每个患者收集数小时甚至数十小时的大脑信号训练数据,这在临床实践中几乎不可能实现。患者往往无法承受如此长时间的数据收集过程,而医疗资源也难以支撑这样的需求。

研究团队巧妙地将这个问题转化为一个"知识迁移"的挑战,就像教一个已经熟练掌握钢琴演奏的人学习吉他一样。他们首先用一名志愿者的50小时大脑信号数据训练了一个基于Conformer架构的人工智能模型,这个模型专门用于识别大脑中的语音活动模式。这个过程类似于让AI系统深度学习人类大脑处理语音信息的基本规律。

接下来,研究团队将这个"预训练"的模型应用到18名新参与者身上,每人仅需要5分钟的大脑信号数据进行个性化调整。更令人惊喜的是,这个系统不仅能够识别人们听到语音时的大脑活动,还能识别人们说话时的大脑信号,实现了真正的"跨任务"解码能力。

这项研究采用了脑磁图技术来记录大脑活动。脑磁图就像是给大脑装上了一个极其敏感的"信号探测器",能够实时捕捉神经元放电时产生的微弱磁场变化。研究团队使用了306个传感器组成的探测阵列,以每秒250次的频率记录大脑信号,确保不遗漏任何细微的活动模式。

在预训练阶段,研究人员让一名英语母语的志愿者听了50多个小时的有声读物,主要是《夏洛克·福尔摩斯》系列故事。在这个过程中,AI系统学会了识别大脑中"有声音"和"安静"状态的区别。这个基础模型就像一个经验丰富的"大脑信号翻译员",掌握了人类处理语音信息的基本模式。

随后的测试阶段更加有趣。18名西班牙语母语的参与者分别完成了三项不同的任务:聆听预先录制的语音、回放自己的声音录音,以及大声朗读文字。每项任务仅持续约5分钟,产生的大脑信号数据量相当有限。然而,经过预训练的AI系统在这些新数据上进行快速调整后,展现出了令人印象深刻的识别能力。

实验结果显示了迁移学习的显著优势。在识别听力任务方面,使用迁移学习的模型准确率提升了3.7%,达到79.0%,F1分数提高了2.6%,AUC分数更是大幅提升了7.3%。这些改进听起来可能不太起眼,但在脑机接口领域,每一个百分点的提升都意味着巨大的技术进步。特别值得注意的是,即使预训练模型完全基于听力数据,它在语音产生任务上同样表现出了改进,准确率、F1分数和AUC分数分别提高了0.7%、0.7%和1.1%。

更加引人注目的是跨任务解码能力的实现。研究团队发现,在一个任务上训练的模型能够成功解码另一个完全不同的任务。比如,一个专门学习识别"听到语音"时大脑信号的模型,竟然能够识别"说话"时的大脑活动,准确率达到65.0%到73.4%之间。这个发现证实了一个重要的科学假设:人类大脑在处理语音感知和语音产生时,存在共同的神经基础。

跨任务迁移的效果呈现出有趣的方向性特征。感知任务之间的迁移相对容易,听力任务和回放任务之间可以很好地相互迁移,准确率都在72%以上。然而,从语音产生任务向感知任务的迁移稍显困难,准确率降到65-66%左右。这种不对称性实际上符合神经科学的基本原理:语音产生不仅涉及听觉处理,还需要运动规划、感觉反馈等额外的神经机制,而感知任务则相对简单。

当结合迁移学习技术后,跨任务解码能力得到了进一步提升。听力与回放任务间的迁移效果最为显著,准确率提升了6.1%和6.3%。更重要的是,涉及语音产生的跨任务组合也获得了3-5%的改进。这些提升在统计学上都达到了显著性水平,证明了方法的可靠性。

研究团队还深入分析了个体差异对迁移学习效果的影响。结果显示,18名参与者中的大多数都从迁移学习中受益,但效果存在一定的个体差异。在感知任务中,15名参与者表现出改进,而在语音产生任务中,16名参与者获得了提升。这种变异性提示我们,未来的脑机接口系统可能需要考虑个体化调整策略。

从技术角度来看,这项研究采用了多项创新性的方法改进。研究团队引入了"滚动增强"技术,通过对训练数据进行时间维度的循环移位来增加数据多样性,类似于通过不同角度观察同一个物体来增强理解。同时,他们还使用了"软标签"技术,不再简单地将每个时间窗口标记为"语音"或"静音",而是根据该窗口中语音所占的比例给出更细致的标记。

实验设计的严谨性也值得称道。研究团队使用了Wilcoxon符号秩检验这一非参数统计方法来评估结果的显著性,并采用Holm-Bonferroni方法进行多重比较校正,确保统计结论的可靠性。此外,他们还进行了基于排列的符号翻转检验,通过10000次迭代来验证整体效果的统计显著性。

这项研究的临床意义不容小觑。传统的脑机接口系统需要每个患者进行数小时的个性化训练,这在实际应用中往往不现实。而新方法仅需5分钟的数据收集,就能实现可靠的语音检测功能,这大大降低了技术应用的门槛。特别是跨任务能力的实现,意味着一个基于语音产生训练的系统也能理解患者的听觉感知状态,这为开发更全面的语言康复系统提供了可能。

研究也存在一些局限性。当前的系统仅能进行语音检测,还无法识别具体的语音内容或语义信息。此外,预训练和微调使用了不同的语言(英语和西班牙语),虽然证明了方法的跨语言适用性,但也可能限制了迁移效果的充分发挥。研究团队还指出,预训练数据来自单一个体,未来需要探索多个体预训练是否能进一步改善泛化能力。

从更广阔的科学视角来看,这项研究为神经科学提供了新的证据,证明了语音感知和语音产生在神经层面确实存在共享的表征机制。这支持了当代语音处理的"双流模型"理论,该理论认为大脑中存在腹侧感知通路和背侧感觉运动通路,它们相互协作完成语音处理任务。

技术实现方面,研究团队还公开了所有代码、预处理脚本和模型配置,确保研究的可重现性。这种开放科学的做法不仅有助于同行验证结果,也为后续研究提供了宝贵的技术基础。

说到底,这项研究代表了脑机接口技术从实验室走向实际应用的重要一步。通过证明大规模预训练模型可以用极少的个体数据实现有效的语音解码,研究团队为开发实用的语言康复系统铺平了道路。虽然目前的技术还处于语音检测阶段,但其展现的跨任务泛化能力和数据效率优势,预示着未来在词汇识别、语义理解等更高级任务上的巨大潜力。

这种技术突破不仅为失语症患者带来了希望,也为神经科学研究开辟了新的方向。通过更深入地理解大脑处理语言的机制,我们有望开发出更加智能、高效的脑机接口系统,最终帮助更多需要语言康复的患者重新获得与世界沟通的能力。

Q&A

Q1:脑磁图技术是如何记录大脑语音活动的?

A:脑磁图技术就像给大脑装上了极其敏感的"信号探测器",能够实时捕捉神经元放电时产生的微弱磁场变化。研究使用306个传感器组成的探测阵列,以每秒250次的频率记录大脑信号,确保不遗漏任何细微的活动模式。当大脑处理语音信息时,相关神经元会产生特定的放电模式,这些模式在磁场中留下独特的"指纹",AI系统通过学习这些指纹来识别语音活动状态。

Q2:为什么用5分钟数据就能训练出有效的语音识别系统?

A:关键在于"迁移学习"策略,就像教一个已经熟练掌握钢琴的人学吉他一样。研究团队首先用50小时的大脑信号数据训练了一个"预训练"模型,让它深度学习人类大脑处理语音的基本规律。然后将这个经验丰富的"大脑信号翻译员"应用到新参与者身上,只需5分钟的个性化调整就能适应新的大脑信号特征。这种方法避免了从零开始训练的低效率问题。

Q3:跨任务解码能力意味着什么实际应用前景?

A:跨任务解码能力证明了大脑在处理语音感知和语音产生时存在共同的神经基础。这意味着一个基于语音产生训练的脑机接口系统也能理解患者的听觉感知状态,为开发更全面的语言康复系统提供了可能。对于失语症患者来说,医生可以通过监测他们的听觉理解能力来评估康复进展,同时系统也能帮助患者重新学习语音表达,实现"听说并重"的综合治疗效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

Ck的蜜糖
2026-03-26 12:30:25
A股三大指数均跌逾1%,全市场下跌个股超4500只

A股三大指数均跌逾1%,全市场下跌个股超4500只

界面新闻
2026-03-26 13:24:15
为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

心中的麦田
2026-03-24 19:53:20
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

加图索:有些球员几乎站都站不稳但是没回家,而是留在了这里

懂球帝
2026-03-26 04:09:06
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

品读时刻
2026-03-25 09:04:33
王国本:江西省人大常委会原副主任

王国本:江西省人大常委会原副主任

王姐懒人家常菜
2026-03-26 13:38:47
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

醉卧浮生
2026-03-26 07:54:15
美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

大风新闻
2026-03-26 15:51:37
肯豆不穿内搭不尴尬吗?

肯豆不穿内搭不尴尬吗?

乡野小珥
2026-03-26 08:38:37
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
涉嫌严重违纪违法,孟健被查

涉嫌严重违纪违法,孟健被查

都市快报橙柿互动
2026-03-26 15:05:03
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
既然只是“劝架”,为什么要砸碎人家的镜子?

既然只是“劝架”,为什么要砸碎人家的镜子?

胖胖说他不胖
2026-03-26 14:05:04
2026-03-26 17:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
本地
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版