网易首页 > 网易科技 > 智能硬件 > 正文

亚马逊Alexa真的解决了“鸡尾酒派对”难题吗?

0
分享至

(原标题:亚马逊Alexa真的解决了“鸡尾酒派对”难题吗?)

导语:什么是“鸡尾酒会派对难题”?难道Alexa已经解决了这个长达半个多世纪的“难题”吗?

雷锋网按:本文作者王璐、袁媛,原载于声学在线,雷锋网(公众号:雷锋网)已获得转载授权。

在美国加州圣克拉拉市召开的AI Frontier大会上,亚马逊首席科学家Nikko Strom详细介绍了Alexa背后的深度学习技术,包括深度学习的基本架构,以及语音识别、语音合成等方面的内容,其中,语音识别部分提到了Alexa在应对“鸡尾酒派对难题”所做的工作。那么,什么是“鸡尾酒会派对难题”?难道Alexa已经解决了这个长达半个多世纪的“难题”吗?

鸡尾酒会派对难题

“鸡尾酒会派对难题”其实就是大名鼎鼎的“鸡尾酒会效应”。

鸡尾酒会效应(cocktail party effect)由英国认知科学家Edward Colin Cherry于1953年提出,指的是指人类的一种听力选择能力。在这种情况下,人可以把注意力集中在某一个声音刺激上,而忽略其他的背景声音。也就是说,人类可以集中在某一个人的谈话之中,而忽略背景中其他的对话或噪音。

这个维基百科的解释让我们听的有些云里雾里,其实,我们在现实生活中的许多经历很好的诠释了什么是鸡尾酒会效应。

喧嚣热闹的酒吧舞池里灯光耀眼,音乐劲爆,你和朋友在一旁的吧台聊天,尽管周边的噪音很大,你还是可以听到朋友说的内容。此时,如果远处突然有人叫起你的名字时,你会马上就会注意到。

异国他乡的小餐馆中,周围交谈的食客使用的是各自的母语,西语、法语、葡萄牙语不绝于耳。觥筹交错间远处突然传来一声中文的“嘿!你在这呢?好久不见”,你立刻就能循着声音,定位那个说中文的人。即使你们中间隔着十几张桌子,即使那位朋友的声音并不洪亮。

这些现象我们都称之为“鸡尾酒效应”。这是我们人类听觉系统表现出的惊人天赋。科学家发现,婴儿已经具备选择性注意的能力。五个月大的婴儿就能够在复杂的声音环境中对自己的名字做出反应,这种能力在十三个月大的时候发展成熟。

鸡尾酒会效应的产生机制相当复杂,关于选择性注意和鸡尾酒会效应的成因,学术界提出过四个有影响力的理论模型:Broadbent的过滤器模型、Treisman的衰减模型、Deutsch & Deutsch理论和Kahneman理论。然而,这四种理论模型都不能完美地解释“鸡尾酒会效应”出现的各种现象。所以,目前对于鸡尾酒会效应产生的机制仍然尚没有统一的认识,也就是说还没有统一的理论解释和支撑我们如何解决鸡尾酒问题。

鸡尾酒会效应的产生机制虽然复杂,但对于我们人类来说,在多个声源之间转换注意力是一件非常轻松的事,以至于我们甚至感受不到这个过程的存在。然而,对于我们制造出各种智能设备来说,做到这一点就是非常有难度的。

在实际应用中,当我们对智能设备发出命令时,我们可以通过麦克风阵列确定声源位置,并通过波束形成定向拾取该方向的声音。然而,这同一方向可能不仅有噪音的干扰,还有电视或其他人同时说话的声音。设备需要在相互混杂的声音中准确提取出对它发出指令的声音,而不受其他声音的影响。

对于我们制造出各种智能设备来说,它们还无法像人类那样做到自由地切换注意力。机器目前还不能自主区分一个方向内众多人声中,到底哪一个是对它有用的声音。

Alexa如何应对“鸡尾酒会问题”?

自Cherry提出“鸡尾酒会问题”半个多世纪以来,大量的科学家试图去解决这个问题,包括自动语音识别(ASR)的预处理,说话人识别,说话人变化检测,说话人分离,结束指向和手动转录等。1985年,有学者提出了盲信号分离(blindsignal separation),在不知道原始信号的信息和混合方法时,可以比较有效地恢复独立的原始信号。后辈学者通过不断改进,引入了神经网络的方法,正在逐步提高信号分离的效果。

而此次AI Frontier大会上,Nikko博士介绍亚马逊使用的方法则是基于上下文联系的“Anchored Speech Detection”。这篇发表于2016年的论文中提到了两种检测目标语音的方法,首先需要用户先说出一个“anchor word”,例如唤醒词“Alexa”,作为我们学习说话者语音特征的参考。

第一种方法中,估计“anchor word”字段的平均值来标准化特征向量,从中突出低频部分相对于“anchor word”的差异。

另一种方法则是使用编码器-解码器网络,通过应用常规对数幅度因果平均值减法来归一化该网络的特征。

这两种方法实验结果表明:在具有常规归一化特征的基线前馈网络中,可以实现分类误差率大约10%的相对降低。

总的来看,Amazon开始尝试解决“鸡尾酒会问题”。然而,虽然Amzon不断更新其麦克风阵列算法,并在深度学习方面进行大量调整,但是Alexa目前还是无法做到在同一个方向多人说话的情况下,准确的判断识别到底是谁在说话。特别是对于Alexa采用基于能量搜索唤醒的算法模式,非常容易受到周围环境的干扰,导致噪杂环境下的唤醒失败。

虽然到目前为止,“鸡尾酒会问题”还没有得到满意的解答。但是随着新器件和新技术的应用,以及越多越多的学者参与研究,相信“鸡尾酒会问题”得到解决,不会等待太久时间。

相关推荐
热点推荐
泰国打的不是柬埔寨,是脸

泰国打的不是柬埔寨,是脸

求实处
2025-12-16 23:00:43
馆藏明代仇英《江南春》为何现身拍卖市场?南京博物院回应

馆藏明代仇英《江南春》为何现身拍卖市场?南京博物院回应

界面新闻
2025-12-17 21:05:14
上海空气里飘着“焦味”?最新回应来了

上海空气里飘着“焦味”?最新回应来了

看看新闻Knews
2025-12-17 18:28:05
俄乌迎来大结局?泽连斯基终于怕了,普京被甩锅,最大输家浮现

俄乌迎来大结局?泽连斯基终于怕了,普京被甩锅,最大输家浮现

军机Talk
2025-12-17 14:19:47
泰国定义柬埔寨园区为“犯罪团伙”,国人却称他们为“电诈人员”

泰国定义柬埔寨园区为“犯罪团伙”,国人却称他们为“电诈人员”

清书先生
2025-12-17 17:32:36
苹果官宣:部分老款 iPhone 存在严重技术故障

苹果官宣:部分老款 iPhone 存在严重技术故障

简科技
2025-12-17 19:00:17
警方通报“警务人员开警车接送孩子”:涉事人员已被停止执行职务

警方通报“警务人员开警车接送孩子”:涉事人员已被停止执行职务

界面新闻
2025-12-17 18:38:12
奥迪:我们只能造出热效率38%的发动机,你们是怎么做到45%的?

奥迪:我们只能造出热效率38%的发动机,你们是怎么做到45%的?

少数派报告Report
2025-12-17 07:32:02
王毅同委内瑞拉外长希尔通电话

王毅同委内瑞拉外长希尔通电话

界面新闻
2025-12-17 22:35:55
海南封关动了谁的奶酪?答案显而易见:新加坡为代表的传统中转港

海南封关动了谁的奶酪?答案显而易见:新加坡为代表的传统中转港

知法而形
2025-12-17 09:45:58
炸裂!网传老太太睡大女婿生了娃,偷换小女儿的儿子,致外孙丢失

炸裂!网传老太太睡大女婿生了娃,偷换小女儿的儿子,致外孙丢失

社会酱
2025-12-17 17:12:37
男子参加婚宴饮酒后死亡,家属起诉新郎新娘及酒店索赔238万元 二审改判:本人自担全责

男子参加婚宴饮酒后死亡,家属起诉新郎新娘及酒店索赔238万元 二审改判:本人自担全责

红星新闻
2025-12-17 19:08:06
南京博物院馆藏明代《江南春》现身拍卖市场,捐赠者后人起诉博物馆:为何多幅名画“消失”

南京博物院馆藏明代《江南春》现身拍卖市场,捐赠者后人起诉博物馆:为何多幅名画“消失”

澎湃新闻
2025-12-17 08:16:28
《阿凡达3》预售票房断崖式下跌,网友:这票价他们也是真敢开口

《阿凡达3》预售票房断崖式下跌,网友:这票价他们也是真敢开口

星宿影视鸭
2025-12-17 14:53:49
全网疯传的江门大瓜,年度最复杂的家庭伦理关系

全网疯传的江门大瓜,年度最复杂的家庭伦理关系

杭城村叔
2025-12-17 21:01:23
泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

胡严乱语
2025-12-16 20:33:51
“汪苏泷隐婚生子”冲上热搜,回应来了

“汪苏泷隐婚生子”冲上热搜,回应来了

大风新闻
2025-12-17 15:50:05
日本议员曝光,高市早苗抛开事先准备的材料,强行输出涉台谬论

日本议员曝光,高市早苗抛开事先准备的材料,强行输出涉台谬论

合赞历史
2025-12-17 14:51:13
住建部部长倪虹最新署名文章:推动房地产高质量发展

住建部部长倪虹最新署名文章:推动房地产高质量发展

新京报政事儿
2025-12-16 09:22:26
佳能63万“恶意赔偿”,咋这么明目张胆?

佳能63万“恶意赔偿”,咋这么明目张胆?

胡严乱语
2025-12-16 20:29:21
2025-12-18 01:40:49

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

坠亡女教师有已婚哥哥和未婚弟弟 父母被指不愿退彩礼

头条要闻

坠亡女教师有已婚哥哥和未婚弟弟 父母被指不愿退彩礼

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

游戏
手机
数码
亲子
家居

德玛西亚杯:没什么好说得,UP零封FRK

手机要闻

真我16 Pro系列外观曝光,还有10000mAh±电池机型

数码要闻

RGB-Mini LED迎来“跨年夜”,“光色同控”从电视走向桌面

亲子要闻

撒泼打滚的娃妈妈只有一早就制服了

家居要闻

温馨独栋 驼色与浅色碰撞

无障碍浏览 进入关怀版
×