网易首页 > 网易号 > 正文 申请入驻

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

在日常生活中,你是否遇到过这样的情况:在嘈杂的环境中,语音助手听不清你的指令?或者在视频通话时,对方的发音不够清晰,让你难以理解?

自动语音识别(ASR)技术正在不断进步,但在真实世界的视频场景中,ASR仍然面临许多挑战,如噪声干扰、口语化表达、以及同音词混淆等问题。

那么,人们能否利用视觉信息来增强语音识别的准确性呢?

最近,来自中国人民大学及卡耐基梅隆大学的学者们在AAAI 2025会议上正式发布了他们最新的研究——BPO-AVASR(Bifocal Preference Optimization for Audiovisual Speech Recognition)。

这是一种全新的双焦点偏好优化方法,能够有效提升多模态语音识别(AV-ASR)系统的性能,使其在真实世界视频场景下的表现更加强大!

论文链接:https://arxiv.org/pdf/2412.19005

代码地址:https://github.com/espnet/espnet

语音识别的「视觉外挂」:为什么要结合视觉?

传统的ASR系统仅依赖音频输入进行语音识别,但在现实场景中,单靠音频往往不足以精准识别用户的语音。例如:

  • 背景噪声问题:咖啡厅、地铁、机场等嘈杂环境会干扰ASR的准确性。

  • 口语化表达:自发性语音中包含大量连读、省略等非标准表达,例如「gonna」代替「going to」。

  • 同音词歧义:例如,「dark」和「duck」,仅依赖音频可能会导致错误识别。

视觉信息,尤其是视频中物体、背景信息、文本等,能提供额外的线索来帮助ASR模型更精准地理解语音内容。例如,看到屏幕上出现了一瓶「可口可乐」,ASR 识别「cola」而非「caller」的可能性会更高。因此,AV-ASR(音视频语音识别)应运而生,结合视觉与语音信息,提升识别准确性。

双焦点偏好优化(BPO)

虽然多模态ASR近年来取得了显著进展,但目前的方法仍然存在一些关键问题:

  • 未充分利用视觉信息:许多AV-ASR模型虽然引入了视觉特征,但并未明确优化模型在视觉线索上的利用能力。

  • 难以适应真实世界的视频场景:大多数方法仅在干净的数据集上训练,泛化能力有限。

  • 忽略真实环境中的常见错误:例如噪声影响、口语化表达、视觉信息缺失等问题。

为了解决这些问题,研究者们提出了一种全新的双焦点偏好优化(Bifocal Preference Optimization, BPO)方法,以BPO-AVASR模型为核心。这篇工作的创新点包括:

输入端偏好优化(Focal I):通过遮挡音频或扰动视频信息,模拟现实世界中的干扰因素,使模型学会如何在音视频信息缺失时做出更准确的预测。

输出端偏好优化(Focal II):通过引入AI生成的错误文本(如同音词替换、语音模糊重写等),让模型学习如何避免这些常见的识别错误。

换句话说,不仅要让模型学会「看」和「听」,更让它学会如何在信息不完整或错误的情况下做出更好的决策,从而更好地在多模态的场景下同时利用视觉和听觉信息识别出准确的文本。

如何构造偏好数据?

BPO-AVASR架构概览

BPO-AVASR通过构造偏好数据来优化ASR,主要涉及输入端优化和输出端优化。


输入端偏好数据构造(Focal I)

目标:让模型学会如何处理不完整的音视频信息,提升对噪声、模糊信息的适应能力。

  • 掩蔽音频(Masked Audio):随机遮挡部分音频帧,模拟噪声环境。

  • 翻转视觉(Flipped Vision):对视频帧进行翻转,使视觉信息变得更难解析,以模拟视角变化的影响。


输出端偏好数据构造(Focal II)

目标:让模型学习如何避免常见的识别错误,优化ASR预测文本的准确性。

  • 同音词替换(Homophone-based Generation):生成同音词错误,如「die」→「dye」。

  • 口语化改写(Spontaneous-based Generation):生成口语化改写错误,如「gonna」→「goingto」。

  • 视觉信息忽略(Vision-based Generation):让ChatGPT生成忽略视觉信息的错误文本,例如视频中的「dylon」被误识别为「dylan」。

偏好数据构造方法

实验结果与结论:BPO-AVASR让ASR更强大!

为了验证BPO-AVASR的效果,研究者们在多个基准数据集上进行了测试,包括:How2,VisSpeech和Ego4D,在不同领域的多模态数据上验证了方法的有效性。

实验结果表明,BPO-AVASR在大部分测试数据集上取得了SOTA(State-of-the-Art,最优)性能,尤其在嘈杂环境和复杂视频场景下表现出色。例如:

  • 在Ego4D数据集上,相比于现有的AV-ASR模型,BPO-AVASR的识别错误率(WER)降低了12.5%!

  • 在How2数据集上,BPO-AVASR仅使用300小时的数据,就超越了使用131K小时数据训练的SOTA模型AVFormer!

未来展望:让 AI 更懂「看」与「听」

BPO-AVASR的成功,不仅让ASR模型在复杂环境下更加稳定,同时也为未来的多模态学习提供了新的思路。未来,研究者们希望:

  • 构建更大规模的开放域 AV-ASR 数据集,提升模型在各种场景下的泛化能力。

  • 探索更复杂的音视频理解,以多模态语音识别为基础,在更多的跨模态交互任务上提升复杂场景理解的能力。

参考资料:

https://arxiv.org/pdf/2412.19005

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!万斯突然宣布了!

快讯!万斯突然宣布了!

达文西看世界
2026-04-12 13:20:48
香港演员郑雷去世,享年92岁,曾出演多部金庸剧

香港演员郑雷去世,享年92岁,曾出演多部金庸剧

都市快报橙柿互动
2026-04-12 23:36:36
理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

澎湃新闻
2026-04-12 04:46:55
二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

医诺维
2026-04-12 12:35:26
接下来你可能会见证人类历史上最大规模的化债历程。

接下来你可能会见证人类历史上最大规模的化债历程。

流苏晚晴
2026-04-11 17:57:14
人口大迁徙已悄然开启!未来几年,无数中国人命运或将彻底改写!

人口大迁徙已悄然开启!未来几年,无数中国人命运或将彻底改写!

小陆搞笑日常
2026-04-12 17:54:18
“我怕我毕业走了他会挨饿”,山东高中生连续3年给校门口智力缺陷老人送烤肠,临近毕业拜托附近女摊主帮送,摊主:很感动,不会收他的钱

“我怕我毕业走了他会挨饿”,山东高中生连续3年给校门口智力缺陷老人送烤肠,临近毕业拜托附近女摊主帮送,摊主:很感动,不会收他的钱

潇湘晨报
2026-04-12 21:18:21
大快人心!全红婵网曝真凶被抓,官方透露真实身份,反常一幕发生

大快人心!全红婵网曝真凶被抓,官方透露真实身份,反常一幕发生

兴史兴谈
2026-04-12 02:13:31
美官员称伊朗拒绝停止铀浓缩及开放海峡等多项要求

美官员称伊朗拒绝停止铀浓缩及开放海峡等多项要求

财联社
2026-04-13 00:22:04
耶鲁大学教授夸赞特朗普:他像狐狸一样聪明,很多决策都是理性的

耶鲁大学教授夸赞特朗普:他像狐狸一样聪明,很多决策都是理性的

爆角追踪
2026-04-12 13:15:47
特朗普威胁称“将把伊朗的残余力量终结”

特朗普威胁称“将把伊朗的残余力量终结”

界面新闻
2026-04-12 21:36:50
AI语聊软件暗藏大尺度色情内容 境外涉黄AI软件绕过监管流入国内

AI语聊软件暗藏大尺度色情内容 境外涉黄AI软件绕过监管流入国内

财联社
2026-04-12 20:28:24
知名时政记者爆料王石被抓,本人回应了

知名时政记者爆料王石被抓,本人回应了

财通社
2026-04-12 19:53:51
世界最大冰山崩解“销号” 我国风云气象卫星监测有“绝招”

世界最大冰山崩解“销号” 我国风云气象卫星监测有“绝招”

新华社
2026-04-12 17:20:41
含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

路医生健康科普
2026-04-11 20:50:03
高三学生因学习困难去医院测出自己是智障,还确诊为多动症:看不懂测试题很多都是乱做的;医生称轻度智障不代表真有问题

高三学生因学习困难去医院测出自己是智障,还确诊为多动症:看不懂测试题很多都是乱做的;医生称轻度智障不代表真有问题

大象新闻
2026-04-12 17:45:03
快讯!郑丽文太让人吃惊了!

快讯!郑丽文太让人吃惊了!

达文西看世界
2026-04-12 19:38:07
今天才知道,为啥鹅蛋很少有人吃?为啥卖鹅蛋的人很少?涨知识

今天才知道,为啥鹅蛋很少有人吃?为啥卖鹅蛋的人很少?涨知识

阿龙美食记
2026-04-12 15:01:18
苏联在抗美援朝战争援助了很多先进武器,为什么没有援助AK47?

苏联在抗美援朝战争援助了很多先进武器,为什么没有援助AK47?

知兵堂军事
2026-04-11 09:49:59
3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

3女1男挤30平深圳合租房,小伙被随意使唤,这样的合租你能接受吗

捣蛋窝
2026-04-12 07:46:25
2026-04-13 03:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14954文章数 66768关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
游戏
亲子
本地
公开课

家居要闻

复古风格 自然简约

太宠玩家:《红沙》BUG被转正成技能!玩家舒服了

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版