网易首页 > 网易号 > 正文 申请入驻

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

0
分享至


新智元报道

编辑:LRST

【新智元导读】文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

随着实时语音大模型的普及,人们一度以为AI实时伴侣已经跨越了自然交互的最后一道门槛。

然而,大模型在语音对话中表现出的聪明,很大程度上源于评测手段的滞后。

此前,Scale AI推出的MultiChallenge基准凭借对指令保留、推理记忆和自我一致性的严苛考察,被公认为评估大模型逻辑长性的黄金标准。

但长久以来,该基准一直缺少一个真正的音频原声版本。

最近,Scale AI正式补齐了这块拼图,发布Audio MultiChallenge,不仅刷新了语音交互的新高度,更揭开了行业内一个公开的秘密:

由于缺乏原生音频测试集,模型厂商在发布报告时,往往不得不利用T2S(Text-to-Speech)将文本基准转换为语音进行评测


论文链接:https://arxiv.org/pdf/2512.14865

这种做法虽然让数据看起来很漂亮,却在无形中给模型加了一层过度美化的滤镜。



撕掉语音外壳

为什么TTS测不出真本事?

利用TTS转换来进行评测,实际上是为模型营造了一个完美的无菌环境。

TTS 生成的语音平滑、规律且高度标准化,彻底过滤掉了人类语言中最重要的特质:日常说话时的各种吞吐、重复、琐碎停顿以及临时改口。

当你对AI说:我想定周一,哦不,是周三的票,等下……还是周二吧。

这种充满了逻辑回溯和口语碎片的自然场景,是目前TTS技术极力避免但在现实生活中无处不在的。

过去,模型穿上了一层由合成语音搭建的语音外壳,本质上是在用文本思维处理洁净信号。

而一旦脱离这个外壳,面对Audio MultiChallenge中47名真实说话者录制的原始音频,模型的逻辑链条便会迅速崩塌。

论文直言不讳地指出:模型在合成语音上的得分显著高于真实人声,这证实了干净的合成音频掩盖了模型在现实世界中的失败模式(Masking real-world failure modes)。

Gemini 3 Pro勉强登顶

GPT-4o意外折戟标题

Audio MultiChallenge延续了原版的严苛逻辑,并针对音频特性新增了致命的一击,从指令保留、推理记忆、自我一致性以及核心的Voice Editing(语音编辑) 四个轴向对模型进行综合考核。

根据论文公布的排行榜,目前全球顶尖模型的音频原生能力普遍处于及格线以下:


实验数据揭露了一个惊人的落差:Gemini 3 Pro Preview凭借其推理架构在逻辑深度上维持了领先;而GPT-4o Audio Preview在面对真实人类语音时,表现出的鲁棒性远低于预期,通过率甚至只有Gemini的一半左右。

揭秘三大失败模式

语音逻辑的深层鸿沟

论文通过详细的错误分析,精准捕捉到了模型在音频模态下的三个软肋,这些结论直接指出了大模型在语音交互中的底层Gap:

语音编辑是逻辑黑洞:这是本次基准新增的维度。当用户在说话过程中中途改口或逻辑回溯时,大多数模型会死板地执行听到的第一个指令。该维度的平均通过率仅为17.99%,这意味着模型在听觉上无法有效处理信息的撤回与覆盖。

时长驱动的崩溃:模型表现随着音频总时长增加而稳步恶化。数据显示,当对话累计音频超过8分钟时,模型的自我一致性得分会骤降至 13% 左右。这意味着目前的语音模型在处理长程语音上下文时,状态追踪能力极其薄弱。

音频线索的感知缺失:当任务要求模型识别非语义信号(如背景的环境声、说话人的语气情绪)来辅助推理时,模型表现比纯语义任务下降了 36.5%。这说明模型依然把语音当成脱水的文字在读,而没能真正听懂声音背后的物理世界。

结语

Audio MultiChallenge的发布证明了语音绝不仅是文本的简单投射,包含着实时状态跟踪、情绪理解以及复杂的口语特质处理。

Scale AI的这一记重锤敲醒了业界:如果我们不能撕掉那层精美的语音外壳,解决模型对自然语音中不完美特征的感知断层,那么AGI驱动的自由交互,将永远停留在听懂单词却不懂逻辑的初级阶段。

参考资料:

https://arxiv.org/pdf/2512.14865

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史第一!绿军狂轰148分,80.8%有效命中率创NBA纪录

历史第一!绿军狂轰148分,80.8%有效命中率创NBA纪录

大眼瞄世界
2026-02-28 23:22:41
没有哈兰德曼城照样赢!冬窗两新援炸了!瓜帅笑开花,阿森纳慌了

没有哈兰德曼城照样赢!冬窗两新援炸了!瓜帅笑开花,阿森纳慌了

听我说球
2026-03-01 10:38:58
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
伊朗政府就哈梅内伊殉职发表声明:要让敌人“付出惨痛的代价”

伊朗政府就哈梅内伊殉职发表声明:要让敌人“付出惨痛的代价”

澎湃新闻
2026-03-01 11:47:05
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
250架战机集结中国大西北!美媒惊呼:中国最大规模空战演习来了

250架战机集结中国大西北!美媒惊呼:中国最大规模空战演习来了

壹知眠羊
2026-02-28 09:37:22
帕夫洛维奇:凯恩会打破莱万的德甲进球纪录,他是世界级前锋

帕夫洛维奇:凯恩会打破莱万的德甲进球纪录,他是世界级前锋

懂球帝
2026-03-01 05:00:15
是不是觉得很奇怪:日本打遍了大半个中国,为何没有踏进陕西一步

是不是觉得很奇怪:日本打遍了大半个中国,为何没有踏进陕西一步

兴趣知识
2026-02-11 13:30:42
美方要求中方参加中美俄三边核裁军谈判,外交部:不公平、不合理也不可行!“中国的核力量同美俄完全不在一个量级”

美方要求中方参加中美俄三边核裁军谈判,外交部:不公平、不合理也不可行!“中国的核力量同美俄完全不在一个量级”

每日经济新闻
2026-02-27 17:25:20
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

叹知
2026-02-28 18:02:53
3800元戏票秒空!陈丽君赴台爆火,肉身滚3米楼梯,征服年轻观众

3800元戏票秒空!陈丽君赴台爆火,肉身滚3米楼梯,征服年轻观众

好贤观史记
2026-03-01 09:02:26
日本新年参贺出大丑!“精神病”典礼排泄震动皇室,如今严防死守

日本新年参贺出大丑!“精神病”典礼排泄震动皇室,如今严防死守

世界王室那些事
2026-02-28 18:31:22
哈格里夫斯:曼城争冠最大优势是有瓜迪奥拉,主动权在阿森纳

哈格里夫斯:曼城争冠最大优势是有瓜迪奥拉,主动权在阿森纳

懂球帝
2026-03-01 13:09:10
深圳富婆回国邀20名同学聚餐,一顿狂吃8万8,不料结账时面面相觑

深圳富婆回国邀20名同学聚餐,一顿狂吃8万8,不料结账时面面相觑

刀刃故事
2025-02-16 15:12:36
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
为天地立心,为生民立命!近五十年内改变世界的七大企业

为天地立心,为生民立命!近五十年内改变世界的七大企业

高博新视野
2026-02-05 15:59:02
四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

篮球资讯达人
2026-02-28 22:31:49
多国谴责美以袭击伊朗

多国谴责美以袭击伊朗

界面新闻
2026-03-01 10:57:25
李亚鹏变心风波升级!和王菲离婚更多细节被扒,女方或因他上春晚

李亚鹏变心风波升级!和王菲离婚更多细节被扒,女方或因他上春晚

古希腊掌管月桂的神
2026-02-28 20:04:13
疑似王一博被爆私密聊天记录,鹿晗肖战躺枪,工作室成已取证

疑似王一博被爆私密聊天记录,鹿晗肖战躺枪,工作室成已取证

娱文速递
2026-02-28 10:24:07
2026-03-01 13:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14617文章数 66649关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊生前已安排好"后事" 总统佩泽希齐扬被边缘化

头条要闻

哈梅内伊生前已安排好"后事" 总统佩泽希齐扬被边缘化

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

小米汽车2月交付超20000台 雷军:为新SU7量产作准备

态度原创

亲子
家居
本地
游戏
公开课

亲子要闻

服了

家居要闻

素色肌理 品意式格调

本地新闻

津南好·四时总相宜

爆料称PlayStation不再移植到PC的决定从去年已定

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版