想象一下这个场景:你坐在一家热闹的餐厅里,周围是此起彼伏的交谈声、餐具碰撞声、背景音乐声。对面朋友正在跟你说话,你却不得不把身体前倾、皱起眉头,才能勉强从这片声音混沌中打捞出一两句完整的话。
对听力正常的人来说,这叫"鸡尾酒会问题"——大脑会自动帮你锁定想听的声音,同时压低其他噪音。但对助听器用户来说,这套过滤系统基本失灵。助听器把所有声音一视同仁地放大,结果往往是噪音变得更吵,想听的人声反而更难辨认。
![]()
现在,哥伦比亚大学的研究团队在《自然·神经科学》上发表了一项新研究:他们造出了一套能读懂你大脑的听力系统。它不靠手动调音量,而是直接监测你的脑电波,判断你现在想听谁说话,然后自动把那个人的声音放大、其他人的声音压低。
![]()
论文作者之一、哥伦比亚大学神经声学处理实验室负责人Nima Mesgarani把这套系统称为"脑控助听器"。按照他的说法,这项技术未来可能用于改进助听器、辅助听力设备,甚至人工耳蜗。
但先别急着激动。MIT计算听觉实验室负责人Josh McDermott——他没有参与这项研究——泼了一盆冷水:这套方法目前只在四个听力正常的人身上测试过。它能不能帮到真正的听障人群,"还是个开放问题"。
这个"但是"很关键,我们后面会细说。
大脑怎么"挑"声音?
要理解这套脑控系统的工作原理,得先回到2012年。那一年,Mesgarani和加州大学旧金山分校神经外科医生Eddie Chang合作,发现了一个关键机制:听力正常的人是怎么解决鸡尾酒会问题的。
他们发现,答案藏在听觉皮层——大脑里负责处理声音的区域——的一种特定脑电波模式里。
Mesgarani这样解释:"当你观察一个身处鸡尾酒会现场的听众的大脑时,你会发现这些脑电波只追踪他正在专注听的那个声音,对其他声源毫无反应。"
换句话说,大脑并不是在"分析"哪个声音更重要,而是在用神经活动直接"投票"——被关注的那个声音,会在听觉皮层留下独特的活动印记。Mesgarani说:"这种活动模式给了我们一个特征签名。我们可以观察某个人的大脑,然后判断:哦,这就是他想听的声音来源。"
这个发现为后来的技术路线埋下了伏笔:如果能实时读取这个神经签名,不就能让机器自动知道用户想听什么了吗?
bedside实验:用癫痫患者的大脑做测试
要把这个想法变成可运行的系统,研究团队需要直接读取人脑的信号。这听起来很科幻,但他们找到了一个现实的切入点:癫痫患者。
论文的第一作者Vishal Choudhari当时是Mesgarani实验室的研究生,现在是一家研发下一代听力技术初创公司的研究科学家。他带领团队做了一个实验,对象是四名因癫痫住院治疗的患者。
这些患者本身听力正常,但因为治疗需要,他们的大脑里已经植入了电极。这给了研究团队一个难得的机会:可以直接监测来自听觉皮层的神经信号,而不用额外做侵入性手术。
实验设置相当直白。Mesgarani描述道:"他们面前放着两个扬声器,每个都在播放一段不同的对话。"
第一阶段,两段对话以相同音量同时播放。结果可想而知:参与者很难听懂任何一边的内容。然后,系统开始介入——它实时分析参与者的脑电波,判断他们试图关注哪个扬声器,然后自动调高那个声音的音量、压低另一个。
关键问题来了:这真的有用吗?
研究团队测试了两种场景。一种是"封闭集"测试:系统提前知道只有两个可能的说话人,任务只是判断用户想听A还是B。另一种是更难的"开放集"测试:系统需要从任意多个说话人中识别目标。
在封闭集场景下,脑控系统的表现相当出色——参与者理解目标对话的准确率显著提高。但在开放集场景下,效果打了折扣。这说明系统的实用性还取决于具体的使用环境:会议室里三五个人开会可能还行,菜市场级别的嘈杂环境就另当别论了。
技术路线:从脑电波到声音分离
这套系统的核心技术其实分两步走。第一步是"解码":从嘈杂的脑电信号中提取出那个神经签名,判断用户注意力指向何方。第二步是"分离":用算法把混合的声音信号拆解开,只放大目标声源。
声音分离这部分,研究团队用了一种基于深度学习的方法。他们训练神经网络学习不同说话人的声音特征,然后实时地把"目标声音"从背景噪音中"抠"出来。这有点像修图软件里的智能抠图——只不过处理的对象是音频波形,而不是像素。
Mesgarani强调,这套系统的独特之处在于"闭环"设计。传统的降噪耳机或助听器是开环的:它们按照预设规则处理声音,不管用户实际想听什么。而脑控系统形成了一个反馈回路——用户的注意力变化会实时反映在脑电波上,系统据此动态调整声音输出,调整后的声音又会影响用户的感知和注意力,如此循环。
![]()
理论上,这种闭环设计应该更贴合用户的真实需求。但理论归理论,实际效果还要看具体实现。
那个绕不开的"但是"
现在回到McDermott提出的那个"开放问题":这套系统对真正的听障人群有用吗?
这里有至少三层不确定性。
第一层是神经机制的差异。2012年的发现和这次实验,都基于"听力正常者"的大脑。但听障人群的听觉皮层可能经历了重塑——长期的声音输入不足或异常,会改变大脑处理声音的方式。他们的神经签名还一样吗?还能被准确解码吗?没人知道。
第二层是技术落地的障碍。实验用的侵入式电极——直接插进大脑的那种——不可能大规模用于普通助听器用户。研究团队也在探索非侵入方案,比如头皮脑电图(EEG),但信号质量和空间分辨率都会大打折扣。用Mesgarani自己的话说,这是"下一步要解决的问题"。
第三层是用户场景的复杂性。实验是在受控的病房环境里做的,只有两个扬声器、两段预设的对话。真实世界里的"鸡尾酒会"要混乱得多:声音来自四面八方、说话人数量不定、还有回声和混响的干扰。系统在这些场景下的表现,原文完全没有提及。
所以McDermott的谨慎是有道理的。他不是说这项技术没前途,而是强调:从"四个听力正常者的床边实验"到"帮助数百万听障人群",中间还隔着大量未验证的假设。
为什么这件事值得被认真对待
尽管如此,这项研究仍然指向了一个值得关注的趋势:听力技术正在从"放大所有声音"向"智能选择声音"进化。
传统助听器的核心困境,是它不理解声音的内容和意义。它只是机械地放大特定频率范围的声波,把处理"该听什么"的认知负担完全丢给用户。结果是很多听障人士宁可不戴助听器——在安静环境里没必要,在嘈杂环境里又帮不上忙,反而添乱。
脑控路线提供了一种完全不同的思路:让机器直接读取用户的意图,而不是让用户去适应机器的工作方式。如果这条路走通,助听器将从一种"声音放大器"变成真正的"听觉助手"。
当然,"如果"是个很大的词。
Mesgarani本人在采访中也保持了克制。他没有承诺时间表,没有预测上市年份,只是说这个方向"可能导致更好的听力技术"。这种措辞本身就说明了现状:这是一个有潜力的研究前沿,但还不是成熟的产品方案。
一个更底层的观察
跳出技术细节,这件事还有另一个值得琢磨的维度:我们越来越习惯用"读取大脑"来解决以前靠"训练身体"应对的问题。
鸡尾酒会问题,听力正常的人靠大脑自动解决,听障人士以前只能靠适应和忍耐——学习读唇、选择安静的社交场合、或者直接减少社交。现在,技术提供了一条捷径:绕过所有学习和适应,直接读取神经信号来代劳。
这种路径依赖会走向哪里?当脑控接口从听力辅助扩展到更多领域——注意力管理、情绪调节、甚至记忆增强——"读取大脑"会不会成为默认选项,而"训练大脑"反而变成一种奢侈的、只有少数人有时间精力去做的事?
这些问题现在还没有答案。但Mesgarani和Chang在2012年的那个发现,以及Choudhari团队这次的实验,都在把我们往这个方向推了一步。
至于脑控助听器本身,最诚实的评价大概是:它证明了概念可行,但距离真正可用还有相当长的距离。对于那些在嘈杂餐厅里挣扎的听障人士来说,眼下最实际的建议可能还是——尽量挑个角落的位置坐,让想听的人面对你说话,以及,对助听器的局限性保持耐心。
技术会进步,但进步的速度往往比新闻标题暗示的要慢得多。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.