网易首页 > 网易号 > 正文 申请入驻

语音助手「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

0
分享至



想象这样一个场景:同一个 AI 模型,用文字交流时对答如流,一旦开口说话就变得磕磕巴巴、答非所问。这不是假设中的场景,而是当下语音交互系统的真实写照。

杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。



  • 标题:Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
  • 论文: arxiv.org/pdf/2509.26542
  • 代码:
  • github.com/linyueqian/VERA

核心发现令人意外,最触目惊心的对比来自 OpenAI 的 GPT 家族:

  • GPT-5 文本版在数学竞赛题上的准确率:74.8%
  • GPT-realtime 语音版的准确率:6.1%

相差 68.7 个百分点,几乎是「学霸」和「学渣」的差距。

这不是个例。研究团队测试了 12 个主流语音系统——从 OpenAI 的 GPT-realtime 到谷歌的 Gemini-native-audio,从亚马逊的 Nova Sonic 到阿里巴巴的 Qwen 音频模型——无一例外,全部在推理任务上「翻车」。



延迟与准确率的关系图。追求 1.5 秒内响应的系统,准确率都在 10% 左右徘徊。

VERA:一套「会说话」的测试题

为了公平对比,研究团队精心设计了一套前所未有的评测体系。他们从五个维度考察语音系统的推理能力:

  • 数学推理

这些题目来自美国数学邀请赛,原本是为顶尖高中生设计的。比如:「有两个二次多项式 P 和 Q,P 的最高次项系数是 2,Q 的是负 2,它们都经过点(16,54)和(20,53),求 P(0) 加 Q(0) 的值。」 文本模型游刃有余,语音模型几乎全军覆没。

  • 网络信息综合

需要整合多个信息源才能回答的问题(取材自 BrowseComp 数据集)。「有位非洲作家在车祸中去世,他小时候想当警察,2018 年起在私立大学任教直到去世。他在哪些年份做过缓刑官?」 这类题目考验的是网络搜索能力和多跳推理能力——同样也是语音系统薄弱的环节。

  • 研究生级科学问题

来自 GPQA Diamond 数据集,连博士生都觉得有挑战性。涉及量子力学、有机化学、分子生物学等深度专业知识。

  • 长对话记忆

测试系统能否记住之前对话的内容(由 MRCR 数据集改编)。「你能把之前写的第二篇关于灯光的新闻给我看看吗?」看似简单,却难倒了大部分语音系统。

  • 事实检索(基准对照)

最简单的知识问答(源于 Simple QA 数据集),如「2010 年 IEEE Frank Rosenblatt 奖得主是谁?」用来验证系统的基础能力。



五类测试题示例。每道题都经过精心改写,确保能自然说出。

从文字到语音:

一场精心设计的「翻译」

VERA 的独特之处在于其严格的语音改写流程。研究团队没有简单地让 TTS 读出原始题目,而是进行了系统性的「语音原生化」改造:

  • 数字全部转换为词语:「2024年」变成「twenty twenty-four」
  • 符号转换为口语表达:「x²」变成「x squared」,「≥」变成「greater than or equal to」
  • 添加自然的对话开场:「我在做一道数学题,需要你帮忙……」
  • 避免歧义发音:确保每个专业术语都有明确的读音

这个过程由四个步骤组成:语音适配性筛选 → TTS 感知改写 → 质量验证 → 语音生成。最终,从约 22,000 道原始题目中精选出 2,931 道高质量测试题。



核心结果对比表。展示各模型在不同任务上的表现差异。

深度剖析:

语音系统为什么「变笨」?

  • 原因一:不可逆的流式承诺(Irreversible Streaming Commitment)

研究指出了一个根本性的架构冲突:

文本生成像写草稿:思考 → 打草稿 → 修改 → 输出终稿

语音生成像现场直播:边想边说 → 说出去收不回 → 硬着头皮继续

这种「不可逆的流式承诺」导致语音系统倾向于选择安全但肤浅的回答路径。它们宁可流畅地说出错误答案,也不愿停下来深入思考。

  • 原因二:认知资源的分配困境

当系统需要同时处理「想什么」和「怎么说」时,认知资源被迫分散。研究发现,即使给语音模型更多「思考时间」(如 Audio Flamingo 3 的 thinking 模式,将响应时间从 2.4 秒延长到 15.1 秒),准确率不升反降(从 1.7% 降到 1.5%)。

这说明问题不在于时间,而在于架构本身的局限性。

  • 原因三:错误的连锁反应



错误模式热力图。不同系统展现出独特的「失败指纹」。

研究团队分析了 16 种错误类型,发现不同架构有着截然不同的失败模式:

  • 流式架构(如 GPT-realtime):倾向于「完成优先」,即使答案错误也要说完整,很少承认「我不知道」(NO_FINAL_ANSWER 偏差 -0.23)。

  • 端到端架构(如 Moshi):经常跑题(OFF_TARGET 偏离度 +0.52),像是完全理解错了问题。

  • 级联架构(如 LiveAnswer):前后矛盾(LOGICAL_CONTRADICTION +0.22),模块间信息传递容易出错。

行业的集体困境

这项研究最令人震惊的发现是问题的普遍性。无论是商业巨头还是开源项目,无论是端到端训练还是模块化设计,所有语音系统都表现出相似的「智商下降」。

宏观数据令人深思:

  • 文本模型平均准确率:约 54%
  • 语音模型平均准确率:约 11.3%
  • 差距:42.7 个百分点

更糟糕的是,这个差距在需要深度推理的任务上进一步扩大。在数学推理任务上,最好的文本模型(GPT-5)达到 74.8%,而最好的语音系统也只有 6.1%。



不同模型家族的性能对比。雷达图清晰展示了文本与语音的巨大鸿沟。

级联架构也救不了

研究团队还搭建了一个简易的 LiveAnswer 系统进行实验:让 GPT-5 在后台负责推理,前台用快速模型(由 Groq 优化的 Llama-3 模型)实时解释,再接上文字转语音系统生成语音。结果数学准确率提升到 59.1%,但仍比纯文本低 15.7%。更要命的是,在需要精确匹配的长对话记忆任务上完全失效(0.2%)。

这证明了一个残酷的事实:问题不是工程优化能解决的,而是架构层面的根本矛盾。

未来的突破口在哪里?

研究团队提出了几个可能的方向:

  • 异步架构革新让「思考」和「说话」真正解耦,后端可以慢慢推理,前端维持流畅对话。这需要全新的系统设计,而不是简单的模块拼接。

  • 智能缓冲策略利用语音播放的时间进行并行计算。当系统说「让我想想这个问题」时,后台已经在疯狂运算。

  • 可编辑的内部状态建立独立于语音输出的内部推理状态,允许系统在内部「打草稿」,只把成熟的想法转化为语音。

  • 分块并行处理将复杂问题分解为多个子任务,并行处理后再整合结果。

影响与展望

VERA 的发布不仅揭示了当前技术的局限性,更重要的是提供了一个标准化的评测框架,让整个行业可以量化地追踪进展。这项研究传递的信息很明确:真正智能的语音助手不是把文本模型接上 TTS 那么简单。

它需要从根本上重新思考如何在实时对话的约束下进行深度推理。研究者们乐观地指出,识别问题是解决问题的第一步。现在我们知道了差距有多大(42.7 个百分点),知道了问题出在哪里(架构而非工程),接下来就是寻找突破的时候了。

下次当 Siri 或小爱同学答非所问时,不妨多一份理解。这不是它们「笨」,而是整个行业都在面对的技术挑战。

从「会说话的搜索框」到「能推理的智能助手」,我们还有很长的路要走。

但至少现在,我们有了一把标尺(VERA benchmark)来衡量进步。每一个百分点的提升,都意味着语音交互向真正的智能更近了一步。

或许有一天,当语音助手能够流畅地解决数学竞赛题时,钢铁侠的贾维斯就不再是幻想了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈奕迅现身单依纯演唱会,全程黑脸还睡着,网友:替李荣浩监场?

陈奕迅现身单依纯演唱会,全程黑脸还睡着,网友:替李荣浩监场?

潮鹿逐梦
2026-03-30 12:50:49
每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

健康科普365
2026-01-11 20:30:03
6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

医学科普汇
2026-03-09 21:50:06
港股多牛科技重挫近50%

港股多牛科技重挫近50%

每日经济新闻
2026-03-30 15:00:20
万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

顾史
2026-03-29 21:31:50
要说谁能帮林诗栋走出现在的困境,无非就是这三个人

要说谁能帮林诗栋走出现在的困境,无非就是这三个人

小光侃娱乐
2026-03-31 05:00:03
部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

共工之锚
2026-03-30 15:30:56
中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

混沌录
2026-03-30 20:17:34
率领康涅狄格大学击退杜克大学!大四强力内线的选秀行情还在飙升

率领康涅狄格大学击退杜克大学!大四强力内线的选秀行情还在飙升

稻谷与小麦
2026-03-31 01:56:09
姆巴佩回怼C罗,世界杯不是七场赛事,而是顶级球员的试金石

姆巴佩回怼C罗,世界杯不是七场赛事,而是顶级球员的试金石

耀阳体育
2026-03-30 15:21:45
19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

丫头舫
2025-09-22 20:39:00
美国如果发动地面战,本次战事军费或突破10万亿美元,“可能导致美国陷入经济衰退等风险”

美国如果发动地面战,本次战事军费或突破10万亿美元,“可能导致美国陷入经济衰退等风险”

都市快报橙柿互动
2026-03-30 13:49:54
把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

草莓解说体育
2026-03-29 18:58:19
默茨:伊朗战事若升级 欧洲承压堪比疫情

默茨:伊朗战事若升级 欧洲承压堪比疫情

新华社
2026-03-31 04:50:05
2026年交强险大调整!6月1日起执行,车主的春天来了

2026年交强险大调整!6月1日起执行,车主的春天来了

老特有话说
2026-03-28 12:54:11
蔚来推出包月租车业务:每月2399元起,以租代买真划算吗?

蔚来推出包月租车业务:每月2399元起,以租代买真划算吗?

数评时代
2026-03-30 21:13:49
心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

阿兵科普
2026-03-28 20:08:11
外卖小哥爬七楼送外卖,心里本来挺不爽的,可是看到客户家门口的牌匾瞬间肃然起敬

外卖小哥爬七楼送外卖,心里本来挺不爽的,可是看到客户家门口的牌匾瞬间肃然起敬

张晓磊
2026-03-30 11:16:16
向佐终于围着老婆转了!偷偷去看郭碧婷,穿情侣装简直不要太配!

向佐终于围着老婆转了!偷偷去看郭碧婷,穿情侣装简直不要太配!

精彩背后的故事
2026-03-31 03:53:50
申花王牌意外提前回到俱乐部!中超第四轮能否出战暂定,引发热议

申花王牌意外提前回到俱乐部!中超第四轮能否出战暂定,引发热议

铿锵格斗
2026-03-30 13:21:41
2026-03-31 05:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

艺术
家居
亲子
健康
旅游

艺术要闻

这个62岁大爷厉害了!他画的超写实美女骗了多少人?.....

家居要闻

东方法式美学 现代简约

亲子要闻

杰森抱着吉他给我们唱了几首,有个爱好生活挺丰富,听听唱的咋样

干细胞抗衰4大误区,90%的人都中招

旅游要闻

走!去苏州河畔新开的书香文化“大船”看看

无障碍浏览 进入关怀版