网易首页 > 网易号 > 正文 申请入驻

智能体听力助手在嘈杂环境中精准识别对话伙伴

0
分享至


在嘈杂的酒吧里,即便是最好的降噪耳机也会束手无策。它们要么完全隔绝外界声音,要么让所有声音涌入,但无法像人类那样自然地专注于重要的声音同时忽略其他噪音。华盛顿大学研究人员的一项新研究提出了第三种解决方案——一种"主动式听力助手",它能利用人工智能技术自动识别你的对话对象,并实时增强他们的声音,无需任何手势或触控操作。

华盛顿大学移动智能实验室负责人、该研究的共同作者Shyam Gollakota说:"我们提出了一个非常简单的问题,如果你在有一百个人的酒吧里,人工智能如何知道你在和谁交谈?"

研究团队的解决方案融合了音频工程和对话科学。基于Gollakota实验室之前的研究,该系统使用经过训练的人工智能来检测人类本能遵循的细微轮流发言模式,这种模式能让对话者以最小重叠交替发言。这种对话节奏成为识别对话参与者的关键线索。不遵循这种模式的声音将被过滤掉。

该原型设备在双耳使用麦克风,并配备一个指向佩戴者嘴部的定向音频滤波器来提取用户自己的语音,这作为检测轮流发言的锚点。有了这个锚点,系统能够隔离和增强对话伙伴的声音,同时抑制其他人的声音,运行延迟低于10毫秒——足够快以保持放大音频与唇部动作同步。

Gollakota表示:"核心洞察很直观。如果我在和你对话,我们不会像不参与对话的人那样频繁地互相打断。"该智能体识别与佩戴者自然轮流发言的声音,而忽略那些过于频繁重叠、不符合对话模式的声音。该方法不依赖于距离、音量、方向或音调。"除了音频,我们不使用任何其他传感器,"他说。"你可以看向别处,或者距离更远的人说话更大声——它仍然有效。"

这项技术对有听力障碍的人特别有用,因为传统助听器会同时放大所有声音和噪音。Gollakota说:"这对生活质量的提升可能极其重要。"配备这项技术的主动式听力助手还能帮助那些难以手动选择要放大的说话者的老年用户。

为了解决延迟问题,系统采用了模仿大脑处理对话方式的双重模型。对话音频要感觉自然,必须在10毫秒内处理完成,但检测轮流发言模式需要一到两秒的上下文。协调这些时间尺度需要分离式架构:一个每秒更新一次的慢速模型和一个每10到12毫秒运行一次的快速模型。

慢速模型推断对话动态并生成"对话嵌入"。快速模型使用该嵌入仅提取已识别的伙伴声音,以足够快的速度抑制所有其他声音,确保对话无缝进行。Gollakota将这个过程比作大脑如何将较慢的思考与快速的语音产生分离。"有一个较慢的过程理解对话,还有一个更快的过程几乎瞬时响应,"他说。

对话节奏因文化而异,所以团队在英语和普通话上训练了系统。它能够泛化到日语对话,尽管从未在日语上训练过——研究人员说,这证明模型正在捕获通用的时序线索。

在受控测试中,该系统识别对话伙伴的准确率达到80%到92%,混淆率为1.5%到2.2%(意味着系统错误地将外部说话者识别为对话参与者)。它将语音清晰度提高了多达14.6分贝。

智能体眼镜公司SoftEye首席执行官Te-Won Lee最近为商用开发了类似技术,他表示:"他们描述的是一个有趣且新颖的方向。但在实际应用方面,仍然面临许多挑战。"Lee的技术基于盲源分离,这是一种信号处理技术,试图在不事先知道源是什么的情况下从混合声音中筛选出单个声源。

Lee说:"在大多数环境中,你不会得到四个人整齐地轮流发言。你会遇到音乐、不可预测的噪音、人们互相打断。研究中描述的场景不是你在大多数真实环境中遇到的场景。"随着声音环境变得更加混乱,性能可能会下降。

不过,他认为该原型的超低延迟是一个重大优势。"当涉及在数百万设备中部署时,延迟必须极低,"他说。"即使100毫秒都是不可接受的。你需要接近10毫秒的东西。"

Lee还指出,几十年来的盲源分离和语音增强工作已经产生了能在各种噪音条件下工作的算法,通常将设备用户这一个期望的说话者从所有其他源中隔离出来。Lee说:"真实世界的语音增强就是将期望的语音从所有其他噪音中分离出来。这些技术更适用于不可预测的环境。"但在耳机或AR眼镜中,系统知道佩戴者打算与谁交谈,他说华盛顿大学的方法"如果场景符合他们的假设,可以非常有效"。

该系统严重依赖自我语音,所以长时间沉默可能会使其混乱。重叠语音和同时的轮流变化仍然具有挑战性。该方法不适合被动聆听,因为它假设主动参与。由于对话规范因文化而异,可能需要额外的微调。

错误检测也可能放大错误的人——这在快速变化的交流中是一个真正的风险。Lee补充说,从音乐到混乱声景的不可预测噪音仍然是一个主要障碍。"真实世界是混乱的,"他说。

接下来,团队计划使用大语言模型融入语义理解,使未来版本不仅能推断谁在说话,还能推断谁在有意义地贡献,让听力助手在跟随对话方面更加灵活、更像人类。

Q&A

Q1:这个主动式听力助手是如何工作的?

A:该系统使用人工智能检测人类对话中的自然轮流发言模式。它通过双耳麦克风和指向嘴部的音频滤波器提取用户语音作为锚点,然后识别与用户自然轮流发言的声音并增强它们,同时抑制其他不符合对话模式的声音,整个过程延迟低于10毫秒。

Q2:这项技术相比传统降噪耳机有什么优势?

A:传统降噪耳机只能选择完全隔绝声音或让所有声音进入,而这个听力助手能智能识别对话伙伴并只增强他们的声音。它不依赖距离、音量或方向,即使用户看向别处或有人距离更远但声音更大,系统仍能准确识别真正的对话参与者。

Q3:主动式听力助手在实际使用中有哪些局限性?

A:该系统严重依赖用户自己的语音,长时间沉默会造成混乱。在有重叠语音、同时轮流变化或不可预测噪音(如音乐、混乱声景)的环境中性能可能下降。它不适合被动聆听,需要用户主动参与对话,且可能因文化差异需要额外调整。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有哪些说话给人下套的例子?网友:偏僻叫不到代驾,都给安排明白

有哪些说话给人下套的例子?网友:偏僻叫不到代驾,都给安排明白

夜深爱杂谈
2026-01-21 20:01:54
未来两周触底反弹!3大生肖喜事临门,贵人相助,好日子开始

未来两周触底反弹!3大生肖喜事临门,贵人相助,好日子开始

人閒情事
2026-01-22 12:21:54
徐州市委书记回应“为何不急着官宣万亿”

徐州市委书记回应“为何不急着官宣万亿”

极目新闻
2026-01-21 21:29:39
《楚乔传2》林更新从冰湖出来变成了李昀锐,两个人差距太大了!

《楚乔传2》林更新从冰湖出来变成了李昀锐,两个人差距太大了!

小娱乐悠悠
2026-01-21 11:01:51
开始行动!勇士拉动三方交易,想吃回头草带回状元?但科尔或离队

开始行动!勇士拉动三方交易,想吃回头草带回状元?但科尔或离队

你的篮球频道
2026-01-22 08:38:07
武统、和统都没戏了?台军事专家:中国大陆已经在走第三条路

武统、和统都没戏了?台军事专家:中国大陆已经在走第三条路

近史博览
2026-01-18 16:23:54
第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

阿伧说事
2026-01-22 11:20:54
中美默契淋漓尽致,中方拒绝日本入常,特朗普一句话直戳高市痛点

中美默契淋漓尽致,中方拒绝日本入常,特朗普一句话直戳高市痛点

史料布籍
2026-01-22 12:41:48
贝森特放狠话:无惧美债遭抛售,“丹麦本身都无足轻重”

贝森特放狠话:无惧美债遭抛售,“丹麦本身都无足轻重”

财联社
2026-01-21 18:10:41
美媒很感慨:要不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒很感慨:要不是中国还在反抗特朗普,几乎全世界都向他投降了

南宗历史
2026-01-21 11:21:54
王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

做一个合格的吃瓜群众
2026-01-17 16:38:59
梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

梁洛施罕见谈离开李泽楷原因:他很富有,是一生挚爱,也不后悔

阿代说事
2026-01-21 16:09:15
为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

大千世界观
2025-12-19 21:58:37
马克龙涉华表态,中方回应

马克龙涉华表态,中方回应

环球时报国际
2026-01-21 16:20:45
4-2!亚马尔缺席,莱万抢戏,弗里克神换人,巴萨轻取欧冠弱旅

4-2!亚马尔缺席,莱万抢戏,弗里克神换人,巴萨轻取欧冠弱旅

我的护球最独特
2026-01-22 06:09:57
赵露思新剧《恋人》狂删10集,播出时间曝光!3大隐忧被唱衰

赵露思新剧《恋人》狂删10集,播出时间曝光!3大隐忧被唱衰

一盅情怀
2026-01-22 13:00:23
特大地磁暴爆发!星链卫星大量坠落地球,空间站航天员该怎么应对

特大地磁暴爆发!星链卫星大量坠落地球,空间站航天员该怎么应对

三农老历
2026-01-22 00:17:52
“美商务部长发表暴论,欧洲央行行长直接离场”

“美商务部长发表暴论,欧洲央行行长直接离场”

观察者网
2026-01-21 22:11:04
小面罩引爆TikTok市场,一周狂销80万,卖家发财了

小面罩引爆TikTok市场,一周狂销80万,卖家发财了

跨境派Pro
2026-01-19 14:12:10
新四军刚冲出日军包围圈,旅长却下令:打回去,日军人数不对劲!

新四军刚冲出日军包围圈,旅长却下令:打回去,日军人数不对劲!

史之铭
2026-01-22 06:29:44
2026-01-22 13:43:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15603文章数 49686关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

本地
游戏
数码
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

威世智窃喜?万智牌新卡包混入3月预定的珍稀卡

数码要闻

当贝耳机Air 1 重磅发布:行业首款抗菌耳夹式耳机

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版