网易首页 > 网易号 > 正文 申请入驻

【人工智能】AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响

0
分享至

想象一下,你参加一场人头攒动的活动中,周围都是声音和背景噪音,然而你却能够专心与面前的人交谈。这种在嘈杂背景中分离出特定声音的能力被称为鸡尾酒会问题,该术语由英国科学家 Colin Cherry 于 1958 年首次提出,用来描述人类大脑的这种非凡能力。几十年来,人工智能专家一直在努力用机器模仿人类的这种能力,但这仍然是一项艰巨的任务。然而,人工智能的最新进展开辟了新天地,为该问题提供了有效的解决方案。这为音频技术的变革性转变奠定了基础。在本文中,我们将探讨人工智能在解决鸡尾酒会问题方面取得的进展以及它对未来音频技术的潜力。在深入研究人工智能如何解决这个问题之前,我们必须首先了解人类是如何解决这个问题的。

人类如何破解鸡尾酒会难题

人类拥有独特的听觉系统,可以帮助我们在嘈杂的环境中辨别方向。我们的大脑以双耳方式处理声音,这意味着我们使用双耳的输入来检测时间和音量的细微差异,从而帮助我们检测声音的位置。这种能力使我们能够专注于我们想听到的声音,即使其他声音也在争夺我们的注意力。

除了听觉之外,我们的认知能力也进一步增强了这一过程。选择性注意力可以帮助我们过滤掉不相关的声音,让我们专注于重要信息。同时,语境、记忆和视觉线索(如唇读)有助于将语音与背景噪音区分开来。这种复杂的感官和认知处理系统非常高效,但将其复制到机器智能中仍然令人望而生畏。

为何人工智能依然面临挑战?

从在繁忙的咖啡馆中识别我们命令的虚拟助手到帮助用户专注于单个对话的助听器,AI 研究人员一直在努力复制人脑解决鸡尾酒会问题的能力。这一探索促成了盲源分离 (BSS)和独立成分分析 (ICA)等技术的开发,旨在识别和隔离不同的声源以进行单独处理。虽然这些方法在受控环境中显示出良好的前景 - 其中声源是可预测的并且频率上不会显着重叠 - 但它们在区分重叠的声音或实时隔离单个声源时会遇到困难,特别是在动态和不可预测的环境中。这主要是因为缺乏人类自然利用的感官和情境深度。没有视觉信号或对特定音调的熟悉程度等额外提示,AI 在管理日常环境中遇到的复杂、混乱的声音混合方面面临挑战。

WaveSciences 如何利用 AI 解决问题

2019 年,由电气工程师 Keith McElveen 于 2009 年创立的美国公司WaveSciences在解决鸡尾酒会问题方面取得了突破。他们的解决方案是空间掩蔽释放 (SRM),利用人工智能和声音传播的物理学将说话者的声音与背景噪音隔离开来。由于人类听觉系统会处理来自不同方向的声音,因此 SRM 使用多个麦克风来捕捉声波在空间中的传播。

这一过程中的一个关键挑战是声波在环境中不断反弹和混合,因此很难从数学上分离出特定的声音。然而,WaveSciences 利用人工智能开发了一种方法,可以精确定位每个声音的来源,并根据其空间位置过滤掉背景噪音和环境声音。这种适应性使 SRM 能够实时处理变化,例如移动的扬声器或引入新的声音,这使得它比以前那些难以应对真实世界音频设置的不可预测性的方法更有效。这一进步不仅增强了在嘈杂环境中专注于对话的能力,还为音频技术的未来创新铺平了道路。

人工智能技术的进步

人工智能(尤其是深度神经网络)的最新进展显著提高了机器解决鸡尾酒会问题的能力。深度学习算法在混合音频信号的大型数据集上进行训练,擅长识别和分离不同的声源,即使在重叠的语音场景中也是如此。BioCPPNet 等项目已通过分离动物发声成功证明了这些方法的有效性,表明它们适用于人类语音以外的各种生物环境。研究人员已经表明,深度学习技术可以将在音乐环境中学习到的语音分离应用到新情况中,从而增强模型在不同环境中的稳健性。

神经波束形成进一步增强了这些功能,它利用多个麦克风来集中注意力于特定方向的声音,同时最大限度地降低背景噪音。该技术通过根据音频环境动态调整焦点来改进。此外,AI 模型采用时频掩蔽,通过音频源的独特频谱和时间特性来区分音频源。先进的说话人分类系统可以隔离声音并跟踪单个说话人,从而促进有组织的对话。AI 可以通过结合视觉提示(例如嘴唇运动)和音频数据来更准确地隔离和增强特定声音。

鸡尾酒会问题的实际应用

这些发展为音频技术的进步开辟了新的途径。一些实际应用包括:

  • 法医分析:据BBC 报道,语音识别和处理 (SRM) 技术已在法庭上用于分析音频证据,特别是在背景噪音使说话者及其对话的识别变得困难的情况下。通常,在这种情况下,录音无法用作证据。然而,SRM 在法医环境中已被证明是无价之宝,成功解码了关键音频以供法庭出示。

  • 降噪耳机:研究人员为降噪耳机开发了一个名为“目标语音听觉”的原型 AI 系统,该系统允许用户选择特定人的声音以保持可听性,同时消除其他声音。该系统使用基于鸡尾酒会问题的技术,在计算能力有限的耳机上高效运行。它目前是一个概念验证,但创建者正在与耳机品牌商谈可能采用该技术。

  • 助听器:现代助听器在嘈杂的环境中经常出现问题,无法将特定的声音与背景声音隔离开来。虽然这些设备可以放大声音,但它们缺乏先进的过滤机制,无法使人耳在众多噪音中专注于单个对话。这种限制在拥挤或动态环境中尤其具有挑战性,因为这些环境中存在重叠的声音和波动的噪音水平。鸡尾酒会问题的解决方案可以通过隔离所需声音同时最大限度地减少周围噪音来增强助听器的性能。

  • 电信:在电信领域,人工智能可以通过过滤背景噪音和强调说话者的声音来提高通话质量。这可以使通信更清晰、更可靠,尤其是在繁忙的街道或拥挤的办公室等嘈杂环境中。

  • 语音助手:亚马逊的 Alexa 和苹果的 Siri 等人工智能语音助手可以在嘈杂的环境中发挥更大的作用,并更有效地解决鸡尾酒会问题。这些进步使设备能够准确理解和响应用户命令,即使在背景聊天期间也是如此。

  • 音频录制和编辑:人工智能技术可以协助音频工程师进行后期制作,通过隔离录制材料中的单个声源。此功能可实现更清晰的音轨和更高效的编辑。

底线

鸡尾酒会问题是音频处理领域的一大难题,而人工智能技术已取得了显著进展。空间掩蔽释放 (SRM) 和深度学习算法等创新正在重新定义机器在嘈杂环境中隔离和分离声音的方式。这些突破增强了日常体验,例如在拥挤的环境中实现更清晰的对话,以及改进助听器和语音助手的功能。此外,它们还具有为法医分析、电信和音频制作应用带来变革的潜力。随着人工智能的不断发展,其模仿人类听觉能力的能力将推动音频技术取得更大进步,最终重塑我们在日常生活中与声音互动的方式。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

注我,一起探索元宇宙!

关注七元Web3,获取更多Web3、加密领域的相关知识

2024-09-09

2024-09-23

2024-09-23

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我穿便装回老家探亲,表弟不屑,他团长见到我后却立正敬礼

我穿便装回老家探亲,表弟不屑,他团长见到我后却立正敬礼

白云故事
2025-11-14 15:10:08
玩火自焚!美囤铜想卡脖,不料铝价狂飙,中国坐庄,他们急着求饶

玩火自焚!美囤铜想卡脖,不料铝价狂飙,中国坐庄,他们急着求饶

近史博览
2025-12-18 18:12:03
45岁谢霆锋哈尔滨聚餐,梳油头帅气依旧!网友质疑:真无油腻全靠自律

45岁谢霆锋哈尔滨聚餐,梳油头帅气依旧!网友质疑:真无油腻全靠自律

今古深日报
2025-12-19 10:52:03
有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

装修秀
2025-12-11 10:45:03
黄景瑜曝光新恋情?cp粉曝光圈内猛料:被正主邀请连麦3p?

黄景瑜曝光新恋情?cp粉曝光圈内猛料:被正主邀请连麦3p?

徐帮阳
2025-12-19 16:57:38
泪崩!那些不经意的善意,竟救了自己一命?网友:好人有好报

泪崩!那些不经意的善意,竟救了自己一命?网友:好人有好报

另子维爱读史
2025-12-12 20:14:14
球迷在评论区问戴琳账还完了吗?戴琳回复:你老婆给我还完了

球迷在评论区问戴琳账还完了吗?戴琳回复:你老婆给我还完了

懂球帝
2025-12-17 12:50:29
特斯拉Model Y L上月在国内市场交付量过万 消息称有13000辆

特斯拉Model Y L上月在国内市场交付量过万 消息称有13000辆

TechWeb
2025-12-18 17:01:07
吉鲁:我参加2012年欧洲杯时,妻子从包里递给我阿森纳的合同

吉鲁:我参加2012年欧洲杯时,妻子从包里递给我阿森纳的合同

懂球帝
2025-12-19 11:25:47
官宣!已经确定即将开通运营的高铁

官宣!已经确定即将开通运营的高铁

没有偏旁的常庆
2025-12-19 09:24:26
宋庆龄参加开国大典提三条件,第三点毛主席为难,周恩来巧妙化解

宋庆龄参加开国大典提三条件,第三点毛主席为难,周恩来巧妙化解

南书房
2025-12-08 16:30:10
没买电动车的可以笑了!2026年更换电动车,将会在这3个方面受益

没买电动车的可以笑了!2026年更换电动车,将会在这3个方面受益

电动车的那些事儿
2025-12-19 08:23:13
朱棣在位执政22载,却没能再生下一儿半女,老宫女临死前道出缘由

朱棣在位执政22载,却没能再生下一儿半女,老宫女临死前道出缘由

墨说古今
2025-11-30 20:47:34
河南公公除夕砍死儿媳,儿子哭求死刑,可看到抽屉东西却崩溃

河南公公除夕砍死儿媳,儿子哭求死刑,可看到抽屉东西却崩溃

纸鸢奇谭
2025-06-09 21:44:14
2026年元旦后,运势彻底转向,开始连走十年上坡路的三个星座

2026年元旦后,运势彻底转向,开始连走十年上坡路的三个星座

小晴星座说
2025-12-17 19:41:58
安徽省政府副秘书长许光友履新省统计局局长

安徽省政府副秘书长许光友履新省统计局局长

澎湃新闻
2025-12-19 16:22:26
国羽率先锁定总决赛五个四强席位,李诗沣受伤坐轮椅离场

国羽率先锁定总决赛五个四强席位,李诗沣受伤坐轮椅离场

羽毛球杂志
2025-12-19 16:17:26
福建舰有多难养?参照山东舰,几千人一天7顿饭,难怪小国养不起

福建舰有多难养?参照山东舰,几千人一天7顿饭,难怪小国养不起

云上乌托邦
2025-11-28 12:01:20
重磅“押注”!广西大学新校长没等来院士,却押中一条更“稀缺”

重磅“押注”!广西大学新校长没等来院士,却押中一条更“稀缺”

侃故事的阿庆
2025-12-19 12:16:44
“亲爹咋能这么糟蹋闺女?”父亲拍下女儿视频,网友都看不下去了

“亲爹咋能这么糟蹋闺女?”父亲拍下女儿视频,网友都看不下去了

妍妍教育日记
2025-12-12 23:15:07
2025-12-19 17:44:49
七元宇宙(cancel)V1
七元宇宙(cancel)V1
元宇宙优质内容精选,每日最新资讯分享,助你把握科技前沿动态,品读未来生活!七元宇宙,不止元宇宙。
298文章数 21关注度
往期回顾 全部

科技要闻

2025新一代人工智能创业大赛总决赛收官

头条要闻

日媒披露:日本请求派代表团访华 未获中方回复

头条要闻

日媒披露:日本请求派代表团访华 未获中方回复

体育要闻

“恶龙”埃托奥,正在毁灭喀麦隆足球

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

非法集资911亿!"金融大鳄"终审被判无期

汽车要闻

“一体压铸”再引热议 一旦受损真的修不起吗?

态度原创

教育
手机
家居
数码
游戏

教育要闻

饭碗VS理想:志愿填报价值观正在被重塑

手机要闻

荣耀MagicOS十二月功能上新:一句话P图、全品牌互联等

家居要闻

高端私宅 理想隐居圣地

数码要闻

第一款高性能迷你显卡!七彩虹iGame RTX 5070 Mini OC 12GB评测:烤机一小时不到75度

开放世界建造房产游戏《合同村》冬促新史低!支持1-4人联机,全新科幻风家具DLC拓展更新上线!

无障碍浏览 进入关怀版