网易首页 > 网易号 > 正文 申请入驻

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

0
分享至


新智元报道

编辑:LRST【新智元导读】ICLR 2026:MMSU评测揭示语音大模型存在严重理解缺陷,最佳模型仅60.7%得分,远低于人类89.7%。它通过语言学框架,系统评估语音中的语调、停顿、情绪等关键要素,指出模型未能真正「听懂」语音,导致推理失效。这一发现强调语音理解需同时处理感知与语用信息,为模型改进提供明确方向。

随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。

然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

在自然口语交流中,理解并不等同于文本转写。语言意义的建构,既依赖「说了什么」(what was said),也依赖「怎么说」(how it was said),更依赖说话人在特定语境下「真正想表达什么」(what was truly meant)。语调、重音、停顿、语速变化、情绪表达与语用等现象,往往决定了说话人的真实含义。

在这一背景下,研究团队提出了MMSU(Massive Multi-task Spoken Language Understanding and Reasoning Benchmark),一个覆盖47个子任务、5,000道选择题的综合性语音理解评测基准,旨在从语言学结构出发,系统刻画SpeechLLMs在多层语言现象下的感知与推理能力,并为语音理解能力建立可分析、可诊断、可比较的统一坐标体系。


论文链接:https://arxiv.org/pdf/2506.04779

数据链接:https://huggingface.co/datasets/ddwang2000/MMSU

项目主页:https://github.com/dingdongwang/MMSU

重新审视语音理解的评测边界

与其问「模型准确率多少」,不如先问:我们是否测对了能力?

MMSU指出,当前语音评测存在三类关键缺口:

  • 覆盖不足:大量真实口语现象尚未被系统纳入评估,包括自发性不流畅、反讽、非语言声音(如咳嗽、抽泣、笑声)、重音转移、停顿结构、语调变化、拉长音以及code-switch等。这些看似细微的声学特征,往往承载着决定性语用信息,是推断「话外之音」的关键线索。

  • 数据真实性有限:许多现有benchmark依赖TTS合成语音,虽然便于控制变量,却难以还原真实交流中自然的表达波动与风格差异。

  • 缺乏语言学理论支撑:语音理解的能力边界,根植于语言学理论本身。音系决定声音如何组织,语义决定意义如何编码,修辞与语用决定表达如何产生隐含含义,副语言信号则参与意义的调节与强化。然而,现有基准多以任务现象为单位,缺乏以语言学为根源的系统划分。MMSU以语言学理论为基础构建评测框架,在理论层面定义语音理解的能力结构。

这些问题并非独立存在,而是共同导致评测结果与真实理解能力之间的结构性偏差。


从「听见声音」到「理解语言」语言学驱动的语音理解能力体系标题

在数据构建阶段,MMSU 由语言学专家与标注人员参与设计与审核。所有题目均经过多轮严格筛选与一致性校验,确保难度设置合理、整体评测质量可靠。不同于仅通过音频收集构建数据的benchmark,MMSU 结合了专业录音,使关键语音现象(如重音转移、语调变化、停顿结构等)得到清晰呈现与可控对比,从而提升评测的可靠性。

MMSU 的核心优势体现在三个方面:

第一,在口语声学现象覆盖上,MMSU 系统纳入重音转移、语调变化、停顿结构、拉长音、不流畅表达、反讽、非语言声音等多类真实交流现象,覆盖范围在现有语音理解评测中最为全面。

第二,数据构建中采用大量真实音频样本,并结合专业录音,确保语音表达自然且具有可评估性。

第三,任务体系基于语言学理论框架进行原创性任务设计,将声学线索系统融入真实人际交流语境,形成面向真实交流场景的综合考核机制。

MMSU包含5000道选择题,47个子任务,其中24个感知任务,23个推理任务。任务覆盖范围从底层声学感知到高阶语用推断。

MMSU 将语音理解拆解为三个层级,形成一个结构化能力框架。

第一层:Perception vs Reasoning

感知Perception:聚焦基础声学与语音特征识别,不依赖复杂推理。

推理Reasoning:在感知基础上整合语义与语境信息,完成多步推断。

第二层:Linguistics vs Paralinguistics

语言学Linguistics:涉及语言系统本身的结构与意义,包括语义、句法、音系结构与修辞现象。这里关注的是语言单位如何组织,以及它们如何编码意义。

副语言学Paralinguistics:关注语言之外但影响理解的声学与表达特征,例如音高、音量、语速、情绪表达、停顿模式、非语言声音等。这些线索并不改变词汇内容,却往往改变话语意图与语用效果。

第三层:理论分支

在前两层划分基础上,MMSU 进一步依据语言学理论进行系统展开。在语言维度上,任务细分为语义Semantics与音系Phonology两个方向:语义关注意义理解与语境推断,音系关注语调、韵律与音位差异等声音结构。

在副语言维度上,任务区分为说话人特征Speaker Traits与表达风格Speaking Style,前者涉及音色与身份属性,后者涵盖音高、语速、情绪等动态线索。具体而言,评测涵盖双关语推理、语调推理、重音推理、辅音与元音感知、爆破音识别,讽刺检测、语速比较、音色识别,情绪语境推断等多类任务,系统覆盖真实口语交流中的关键能力。

通过这一层展开,MMSU在理论层面将语音理解拆解为语义内容、声音结构、说话人属性与表达风格四个核心分支,使「说了什么」「怎么说」以及「真正想表达什么」能够在统一框架中被精细刻画与系统评估。




实验结果模型离「真正听懂」还有多远?

研究团队对22个先进SpeechLLMs与OmniLLMs进行了系统评测。人类参考水平为89.72%,最佳模型(Gemini-1.5-Pro)为60.68%,差距接近30个百分点。

一个值得关注的反直觉现象随之显现:在人类表现中,推理任务通常更具挑战;而在模型表现中,基础感知反而成为瓶颈,尤其是在音系相关能力上,模型存在系统性短板。

这意味着,许多所谓的「推理错误」可能并非源于模型缺乏逻辑能力,而是在输入阶段未能准确捕捉关键声学线索,换言之,模型的「思考能力」或许被高估,而「听清能力」却被低估。




结语从「能听」到「听懂」

语音理解的难点,从来不在于识别字词,而在于理解表达结构。

意义并非仅由语义内容决定,还由声音形式与表达方式共同塑造。语调、重音、停顿、语速与情绪变化,往往决定了真实意图。忽略这些声学线索,模型就无法完成真正的语用推断。

实验结果进一步表明,推理能力的上限取决于感知能力的下限。当模型在音系与细粒度声学特征上存在系统性短板时,再强的语言建模能力也难以弥补输入层的缺失。

因此,语音理解并不是单一语义问题,而是一个多层结构问题。它要求模型同时解析语言内容、声音组织与表达风格,并在此基础上整合语境完成推断。

如果缺乏系统性的能力坐标,我们无法判断模型究竟听清了什么、理解了什么,又推理到了何种程度。MMSU 所尝试构建的,正是这样一套结构化标尺。在多模态模型走向真实交互的过程中,语音理解仍是一个尚未被充分攻克的核心问题。


参考资料:
https://arxiv.org/abs/2506.04779

声明:取材网络、谨慎鉴别

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

大运河时空
2026-02-18 11:35:03
重磅!乌克兰外长获中方邀请将访华,中乌高层互访提上日程

重磅!乌克兰外长获中方邀请将访华,中乌高层互访提上日程

老马拉车莫少装
2026-02-20 06:02:36
别追妖股!8只低估科技黑马,业绩连增横盘待风口

别追妖股!8只低估科技黑马,业绩连增横盘待风口

慧眼看世界哈哈
2026-02-20 12:50:57
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
花滑女单两大日本夺冠热门失误丢金!张瑞阳第19

花滑女单两大日本夺冠热门失误丢金!张瑞阳第19

体坛周报
2026-02-20 08:51:10
马杜罗事件或将重演,特朗普政府放话,将在几周内推翻哈梅内伊!

马杜罗事件或将重演,特朗普政府放话,将在几周内推翻哈梅内伊!

天气观察站
2026-02-20 20:24:25
震惊!茂名一女子哭诉超市老板年初一到家炒她“鱿鱼”,原因不明

震惊!茂名一女子哭诉超市老板年初一到家炒她“鱿鱼”,原因不明

火山詩话
2026-02-19 14:07:55
塔利班焚毁500件乐器:音乐导致“道德败坏”

塔利班焚毁500件乐器:音乐导致“道德败坏”

桂系007
2026-02-20 10:45:31
特斯拉新车正式下线:无方向盘、无踏板、无后视镜;定价不高于3万美元,“不需要人开,直接输入目的地即可”

特斯拉新车正式下线:无方向盘、无踏板、无后视镜;定价不高于3万美元,“不需要人开,直接输入目的地即可”

中国能源网
2026-02-20 19:18:19
3-6,世界第4出局!四强决出两席静待赵心童,附赛程小特VS希金斯

3-6,世界第4出局!四强决出两席静待赵心童,附赛程小特VS希金斯

求球不落谛
2026-02-20 06:12:59
即将踢英甲?徐彬已进入巴恩斯利一队训练,媒体:表现可圈可点

即将踢英甲?徐彬已进入巴恩斯利一队训练,媒体:表现可圈可点

足球大腕
2026-02-20 10:31:00
拾石村妈祖被替事件后续,知情人曝内情,真妈祖女孩已同意出山

拾石村妈祖被替事件后续,知情人曝内情,真妈祖女孩已同意出山

观察鉴娱
2026-02-20 10:34:07
揭秘:为何中国宁愿向越南输电,也不向朝鲜输电?

揭秘:为何中国宁愿向越南输电,也不向朝鲜输电?

辉辉历史记
2025-11-24 21:16:46
日本网友说:中国春晚机器人,盗取了我们技术!但是日本真没有

日本网友说:中国春晚机器人,盗取了我们技术!但是日本真没有

陈腕特色体育解说
2026-02-19 16:46:07
美紧急撤回对华名单!高市中文拜年表态,她知道,王毅的话是真的

美紧急撤回对华名单!高市中文拜年表态,她知道,王毅的话是真的

小小科普员
2026-02-19 14:18:33
中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

z千年历史老号
2026-01-23 12:16:03
2nm,真狂啊

2nm,真狂啊

放毒
2026-02-18 14:40:43
紧急预警!脑梗为啥总爱找中国人?80%的人都缺这种维生素

紧急预警!脑梗为啥总爱找中国人?80%的人都缺这种维生素

孟大夫之家1
2026-02-20 19:39:11
宁波一初中生寒假加入“查作业”群,遭遇电诈偷偷转账 “消事”,拿了母亲的手机分20次扫码转出9万余元

宁波一初中生寒假加入“查作业”群,遭遇电诈偷偷转账 “消事”,拿了母亲的手机分20次扫码转出9万余元

极目新闻
2026-02-20 21:26:12
2026-02-20 22:19:00
解说阿洎
解说阿洎
每天给大家分享精彩的格斗解说,还请大家多多关注!
127文章数 3236关注度
往期回顾 全部

教育要闻

出炉,2026考研初试成绩查询!

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
健康
艺术
手机
公开课

旅游要闻

到武汉赴一场新春盛会:寻味三国,邂逅知音

转头就晕的耳石症,能开车上班吗?

艺术要闻

投资198亿!B站新总部,实景图高度还原效果图

手机要闻

小米17系列全球发布会定档:2月28日巴塞罗那见

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版