在拥挤的房间里,人们的谈话声、音乐声、餐具碰撞声交织在一起。对许多人来说,专注于一个声音需要脑力;而对听力障碍者而言,这种努力可能难以承受。
![]()
华盛顿大学的研究团队称,他们已研发出一种突破噪音的方法——AI驱动的智能耳机原型,可自动从周围混乱中分离出用户的对话伙伴。
与现有语音隔离设备不同,该原型无需手动输入:耳机检测对话参与者,静音不符合轮流发言节奏的声音。两个AI模型协同工作:一个分析时间模式,另一个过滤无关声音,2-4秒内识别对话伙伴。
这项成果于11月7日在中国苏州举行的自然语言处理经验方法会议上发布,底层代码开源。研究人员认为,该技术可支持未来的助听器、耳塞和智能眼镜。
资深作者Shyam Gollakota指出,早期方法超出用户预期:“现有识别佩戴者倾听对象的方法主要依赖植入大脑的电极追踪注意力,而我们的洞察是——对话中的轮流节奏可仅通过音频训练AI预测,无需植入电极。”
当佩戴者开始说话时系统激活:第一个模型检查“谁何时发言”并寻找低重叠度,第二个模型清理信号并实时反馈隔离音频。原型目前支持佩戴者与最多4人对话,无明显延迟。
11名参与者测试显示,过滤版本在清晰度、噪音抑制和理解度上的评分是未过滤版本的两倍多。
此前原型需用户手动选择说话者或调整距离“音频气泡”,而新设计无需这些步骤:“我们展示的是主动技术——无创且自动推断用户意图。”第一作者Guilin Hu表示。
混乱对话(如打断、中途加入)仍会干扰追踪,但模型已在英语、普通话和日语上训练,其他语言需调整。当前版本使用商用头戴耳机,团队期望技术缩小至耳塞或助听器,并已证明类似AI模型可在助听器大小的芯片上运行。研究成果发表于EMNLP 2025会议论文集。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.