网易首页 > 网易号 > 正文 申请入驻

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

0
分享至


新智元报道

编辑:LRST

【新智元导读】文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

随着实时语音大模型的普及,人们一度以为AI实时伴侣已经跨越了自然交互的最后一道门槛。

然而,大模型在语音对话中表现出的聪明,很大程度上源于评测手段的滞后。

此前,Scale AI推出的MultiChallenge基准凭借对指令保留、推理记忆和自我一致性的严苛考察,被公认为评估大模型逻辑长性的黄金标准。

但长久以来,该基准一直缺少一个真正的音频原声版本。

最近,Scale AI正式补齐了这块拼图,发布Audio MultiChallenge,不仅刷新了语音交互的新高度,更揭开了行业内一个公开的秘密:

由于缺乏原生音频测试集,模型厂商在发布报告时,往往不得不利用T2S(Text-to-Speech)将文本基准转换为语音进行评测


论文链接:https://arxiv.org/pdf/2512.14865

这种做法虽然让数据看起来很漂亮,却在无形中给模型加了一层过度美化的滤镜。



撕掉语音外壳

为什么TTS测不出真本事?

利用TTS转换来进行评测,实际上是为模型营造了一个完美的无菌环境。

TTS 生成的语音平滑、规律且高度标准化,彻底过滤掉了人类语言中最重要的特质:日常说话时的各种吞吐、重复、琐碎停顿以及临时改口。

当你对AI说:我想定周一,哦不,是周三的票,等下……还是周二吧。

这种充满了逻辑回溯和口语碎片的自然场景,是目前TTS技术极力避免但在现实生活中无处不在的。

过去,模型穿上了一层由合成语音搭建的语音外壳,本质上是在用文本思维处理洁净信号。

而一旦脱离这个外壳,面对Audio MultiChallenge中47名真实说话者录制的原始音频,模型的逻辑链条便会迅速崩塌。

论文直言不讳地指出:模型在合成语音上的得分显著高于真实人声,这证实了干净的合成音频掩盖了模型在现实世界中的失败模式(Masking real-world failure modes)。

Gemini 3 Pro勉强登顶

GPT-4o意外折戟标题

Audio MultiChallenge延续了原版的严苛逻辑,并针对音频特性新增了致命的一击,从指令保留、推理记忆、自我一致性以及核心的Voice Editing(语音编辑) 四个轴向对模型进行综合考核。

根据论文公布的排行榜,目前全球顶尖模型的音频原生能力普遍处于及格线以下:


实验数据揭露了一个惊人的落差:Gemini 3 Pro Preview凭借其推理架构在逻辑深度上维持了领先;而GPT-4o Audio Preview在面对真实人类语音时,表现出的鲁棒性远低于预期,通过率甚至只有Gemini的一半左右。

揭秘三大失败模式

语音逻辑的深层鸿沟

论文通过详细的错误分析,精准捕捉到了模型在音频模态下的三个软肋,这些结论直接指出了大模型在语音交互中的底层Gap:

语音编辑是逻辑黑洞:这是本次基准新增的维度。当用户在说话过程中中途改口或逻辑回溯时,大多数模型会死板地执行听到的第一个指令。该维度的平均通过率仅为17.99%,这意味着模型在听觉上无法有效处理信息的撤回与覆盖。

时长驱动的崩溃:模型表现随着音频总时长增加而稳步恶化。数据显示,当对话累计音频超过8分钟时,模型的自我一致性得分会骤降至 13% 左右。这意味着目前的语音模型在处理长程语音上下文时,状态追踪能力极其薄弱。

音频线索的感知缺失:当任务要求模型识别非语义信号(如背景的环境声、说话人的语气情绪)来辅助推理时,模型表现比纯语义任务下降了 36.5%。这说明模型依然把语音当成脱水的文字在读,而没能真正听懂声音背后的物理世界。

结语

Audio MultiChallenge的发布证明了语音绝不仅是文本的简单投射,包含着实时状态跟踪、情绪理解以及复杂的口语特质处理。

Scale AI的这一记重锤敲醒了业界:如果我们不能撕掉那层精美的语音外壳,解决模型对自然语音中不完美特征的感知断层,那么AGI驱动的自由交互,将永远停留在听懂单词却不懂逻辑的初级阶段。

参考资料:

https://arxiv.org/pdf/2512.14865

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原“亚洲最大宜家门店”即将关闭!会有清仓活动吗?宜家中国回应

原“亚洲最大宜家门店”即将关闭!会有清仓活动吗?宜家中国回应

大风新闻
2026-01-07 23:21:03
小米公关紧急道歉!雷军评论区彻底沦陷了

小米公关紧急道歉!雷军评论区彻底沦陷了

李东阳朋友圈
2026-01-06 22:04:07
中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

百态人间
2026-01-03 16:42:15
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

星空区块链
2026-01-07 21:14:37
轻度抑郁症的人,多半会有这 4句“口头禅”,希望你一句都没说过

轻度抑郁症的人,多半会有这 4句“口头禅”,希望你一句都没说过

不二大叔
2025-11-14 22:09:38
西方媒体炸锅!中国世界最强神机“压缩时空”成真?

西方媒体炸锅!中国世界最强神机“压缩时空”成真?

徐德文科学频道
2026-01-07 20:57:39
吉林决战轰18-4逆转福建:威尔逊23+9包揽最后5分 邹阳16+13

吉林决战轰18-4逆转福建:威尔逊23+9包揽最后5分 邹阳16+13

醉卧浮生
2026-01-08 21:26:24
42岁田馥甄晒出首尔旅行照,素颜皮肤问题多多,面相变得让人陌生

42岁田馥甄晒出首尔旅行照,素颜皮肤问题多多,面相变得让人陌生

阿雹娱乐
2026-01-08 12:05:34
“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

小李车评李建红
2026-01-06 07:30:03
广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

唐小糖说情感
2026-01-07 16:37:28
谁也救不了!不到48小时,闫学晶再迎2大噩耗,或面临巨额赔偿

谁也救不了!不到48小时,闫学晶再迎2大噩耗,或面临巨额赔偿

心静物娱
2026-01-08 09:32:33
受够了网红滤镜的6亿人,为何涌入高德?

受够了网红滤镜的6亿人,为何涌入高德?

虎嗅APP
2026-01-07 18:38:07
疯了!曼联挖到自己的瓜迪奥拉?名帅愿撕毁合同空降梦剧场

疯了!曼联挖到自己的瓜迪奥拉?名帅愿撕毁合同空降梦剧场

奶盖熊本熊
2026-01-08 04:16:38
中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

爱吃醋的猫咪
2025-12-27 16:24:13
美硬扣俄油轮后,不到24小时,特朗普迎来噩耗,这一次没人能帮他

美硬扣俄油轮后,不到24小时,特朗普迎来噩耗,这一次没人能帮他

云上乌托邦
2026-01-08 12:32:14
有人预测:从2026年开始,存款超过50万以上家庭,会面对三大问题

有人预测:从2026年开始,存款超过50万以上家庭,会面对三大问题

蜉蝣说
2025-12-31 11:03:55
一条新闻消失了

一条新闻消失了

深蓝财经
2026-01-07 14:22:05
国家又出生育新政,2026年1月1日起正式实施

国家又出生育新政,2026年1月1日起正式实施

忠于法纪
2026-01-04 09:23:45
湖南省农村信用社联合社党委副书记蒋俊文接受审查调查

湖南省农村信用社联合社党委副书记蒋俊文接受审查调查

界面新闻
2026-01-08 17:03:54
2026-01-09 04:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14288文章数 66451关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

家居
房产
健康
教育
艺术

家居要闻

理性主义 冷调自由居所

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

这些新疗法,让化疗不再那么痛苦

教育要闻

一觉醒来,全球传播学倒退100年(无限流)

艺术要闻

震撼!阿森西奥的人体绘画揭示情感的深渊!

无障碍浏览 进入关怀版