网易首页 > 网易号 > 正文 申请入驻

大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题

0
分享至



从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 “听觉” 后,它的智商下降了。

即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为“模态推理鸿沟”(Modality Reasoning Gap)

这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 “天花板”:

  • 根据Big Bench Audio评测,以 GPT-4o 为例,在纯文本任务(Text-to-Text)的准确率达92%;但一旦切换到端到端语音模式(Speech-to-Speech),其得分跌至66%。这中间26%的巨大跌幅,就是模型引入语音而付出的代价。
  • Google Gemini 团队在技术分享中将其定义为Intelligence Gap;而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种Intelligence Regression,并提出了一个生动的概念Multimodal Tax,即引入音频等多模态数据往往会 “挤占” 模型用于纯推理的能力。





为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调,而是通过对齐 “思维轨迹”,成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。



  • 论文题目: Closing the Modality Reasoning Gap for Speech Large Language Models
  • 论文链接: https://arxiv.org/abs/2601.05543

核心痛点:为什么模型 “听” 得越多,“想” 得越偏?

目前的语音大模型(Speech LLM)通常采用 “语音编码器 + 适配器 + LLM” 的三段式架构。理论上,这应该能让语音输入无缝借用 LLM 强大的推理大脑。但现实是:引入语音模态后,推理能力出现了断崖式下跌

此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷:

1. 输入端强行对齐(Input Fusion):

试图让语音特征在输入层就长得和文本 Embedding 一样。但语音天然包含语气、停顿等富语言信息,与紧凑的文本本质不同。仅依靠输入对齐这种表面功夫,无法解决深层的表征漂移(Representation Drift)—— 随着 Transformer 层数加深,语音激发的隐藏状态(Hidden States)会逐渐偏离文本的思考轨迹(即相同语义纯文本输入时,文本激发的隐藏状态),导致 “想岔了”。

2. 输出端死记硬背(SFT / 蒸馏):

这是最主流的做法,即通过监督微调(SFT)利用静态的 “语音 - 文本” 数据对进行训练,或者通过知识蒸馏(Distillation)让文本分支作为 “老师” 来指导语音分支这个 “学生”。这些本质上都属于 Off-policy(离线策略),试图强行让语音分支去模仿文本的 Token 输出分布。但这有两个问题:

  • 目标不可达: 语音的噪声和副语言特征决定了其输出分布不可能和纯文本完全一致。
  • Exposure Bias: 这种静态监督无法容错。推理时只要错一个 Token,模型就会跌入训练未见过的状态,导致后续回复全盘崩溃。

TARS 的核心洞察在于: 既然死记硬背行不通,能不能用强化学习(RL),让模型自己在 “思考过程” 中去动态对齐文本的轨迹,而不是对齐具体的字?

TARS:用强化学习重塑语音推理轨迹

TARS 是一个基于On-policy RL(具体采用 GRPO)的对齐框架。它巧妙地利用模型自身的文本分支作为 “动态导师”,通过三个关键创新,把语音分支的 “脑回路” 掰回来。



创新一:表征对齐(Representation Alignment)

既然 Gap 和 “表征漂移” 相关,TARS 选择直接从模型内部开刀。

  • 做法: 计算语音作为输入,推理过程中每一层的隐藏状态(Hidden States),与同一模型在文本输入下(文本输入和语音输入在语义上完全相同)的隐藏状态计算余弦相似度,作为表征对齐奖励。



  • 作用: 这就像给语音分支装了一个 “导航仪”。它不再只关注结果,而是引导语音分支的每一层思维路径都时刻紧跟文本分支的轨迹,防止跑偏。

创新二:行为对齐(Behavior Alignment)

为了避免 SFT 的死板,TARS 在输出端引入了更灵活的对齐标准。





  • 作用: 解决了 “目标不可达” 的问题。允许语音和文本在措辞上有差异,只要逻辑对、意思对就能拿分。这让模型在探索中学会了自我修正,而非机械模仿。

创新三:非对称奖励与模态归一化

在 RL 训练设计上,TARS 针对模态差异做了对应优化:

1.非对称奖励(Asymmetric Reward): 文本分支只拿基础奖励(保住基本盘),语音分支额外拿对齐奖励(拼命追赶文本)。



2.模态特定归一化(Modality-Specific Normalization): 这一点至关重要。由于语音推理更难,往往得分较低,如果混合归一化,语音分支会一直收到负梯度。TARS 将两者分开归一化,让语音分支 “自己跟自己比”,保证了持续的优化梯度 —— 即使在所有样本任务准确率都为 0 的极端困难情况下,对齐奖励依然能指导模型进步。



实验结果:推理能力 100% 复原

团队在UnifiedQA数据集上训练,并在MMSUOBQA两个高难度语音推理榜单上进行了验证。实验基于 Qwen2.5-Omni 和 Phi-4-MM 架构。

核心战绩:MRR 突破 100%





  • 模态恢复率(MRR): TARS 在 7B 模型上达到了100.45%(Table 1 最后一行)。这意味着,语音输入的推理能力不仅完全填补了引入音频带来的坑,甚至略微超过了文本基座的表现。
  • 碾压基线: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的准确率达到了79.80%(Table 1 最后一行),稳居 7B 规模模型第一,且显著优于 SFT 和 DPO 基线(Table 2)。

TARS 不是在拆东墙补西墙!

实验发现,TARS 的对齐并不是 “拆东墙补西墙”。在使用 TARS 训练后,模型的文本准确率也同步提升(Qwen: +2.39%, Phi: +5.43%)。这证明语音模态学习到的知识,能够同时增强文本的推理能力。

总结与展望

TARS 的提出标志着语音大模型研究的一个转折点:

1.范式转变: 证明了On-policy RL在解决模态对齐问题上优于传统的 Off-policy(SFT / 蒸馏)方法。

2.轨迹对齐: 提出的 “表征(过程)+ 行为(结果)” 对齐策略,有效消除模态推理鸿沟。

TARS 证明了语音大模型完全可以拥有和纯文本模型同等的 “智商”。对于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一条通往高智商语音交互的可行路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大厂永远理解不了梁文锋

大厂永远理解不了梁文锋

凤凰网科技
2026-05-09 15:41:13
为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

家居设计师苏哥
2026-05-04 11:39:03
法国:确诊首例汉坦病毒感染病例 美国:一人汉坦病毒检测呈弱阳性 均为搭乘涉疫邮轮乘客

法国:确诊首例汉坦病毒感染病例 美国:一人汉坦病毒检测呈弱阳性 均为搭乘涉疫邮轮乘客

鲁中晨报
2026-05-11 16:06:06
江苏省水利厅原一级巡视员朱海生接受纪律审查和监察调查

江苏省水利厅原一级巡视员朱海生接受纪律审查和监察调查

扬子晚报
2026-05-11 12:05:26
上港后腰位置迎来久违新援爆发!本轮表现不俗,曾留洋欧洲穿十号

上港后腰位置迎来久违新援爆发!本轮表现不俗,曾留洋欧洲穿十号

张丽说足球
2026-05-11 09:28:24
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
全球十大毒王级垃圾食品曝光, 很多华人天天都在吃! 泡面, 汉堡竟都没上榜

全球十大毒王级垃圾食品曝光, 很多华人天天都在吃! 泡面, 汉堡竟都没上榜

澳微Daily
2026-05-10 15:59:51
苏提达王后成为下一个诗丽吉,被王室海报盛赞美,泰王也实力宠妻

苏提达王后成为下一个诗丽吉,被王室海报盛赞美,泰王也实力宠妻

八八尚语
2026-05-10 14:10:05
“不是找不到工作 是享受的工作真的难找” “网红教授”郑强:大学不应完全按市场需求设专业,更应教授原理和基础

“不是找不到工作 是享受的工作真的难找” “网红教授”郑强:大学不应完全按市场需求设专业,更应教授原理和基础

每日经济新闻
2026-05-10 17:07:19
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

梦在深巷aqa
2026-03-26 08:02:47
深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

深圳6岁男童吃生菜包烤肉后,全身出现大片青斑、血肿

听心堂
2026-05-09 18:11:29
勇士拒绝重建,豪组三巨头!为了库里最后生涯,管理层疯了?

勇士拒绝重建,豪组三巨头!为了库里最后生涯,管理层疯了?

体育大朋说
2026-05-11 10:50:12
“存款搬家”了吗?多家银行定期存款占比继续攀升,业内:最多不同银行之间迁移

“存款搬家”了吗?多家银行定期存款占比继续攀升,业内:最多不同银行之间迁移

财联社
2026-05-11 10:06:19
吃他汀猝死的人增多?医生含泪苦劝:天热吃他汀,必须多注意4点

吃他汀猝死的人增多?医生含泪苦劝:天热吃他汀,必须多注意4点

荆医生科普
2026-05-08 21:10:04
七年败光两亿!邹市明冉莹颖同步发文:二人最终还是迈出了这一步

七年败光两亿!邹市明冉莹颖同步发文:二人最终还是迈出了这一步

拳击时空
2026-05-11 06:07:43
颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

明眼人谈教育
2026-05-10 08:30:03
榴莲事件后续!买家身份曝光很意外,父母求原谅,最后结局很解气

榴莲事件后续!买家身份曝光很意外,父母求原谅,最后结局很解气

天马幸福的人生
2026-05-11 03:06:26
CBA8进4生死战!广厦客场翻盘,山西错失赛点,排名主动权易主

CBA8进4生死战!广厦客场翻盘,山西错失赛点,排名主动权易主

小莜读史
2026-05-11 15:56:17
巴媒提前曝光:巴飞行员试飞中国定制歼35,性能超F35

巴媒提前曝光:巴飞行员试飞中国定制歼35,性能超F35

琴音似君语
2026-05-09 20:30:22
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
2026-05-11 16:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12968文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
房产
亲子
本地
公开课

数码要闻

努比亚推出GT Buds耳机:支持35dB降噪,269元

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

亲子要闻

首都教育亲子欢乐跑开跑,合作伙伴火花思维携亲子家庭亮相系统

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版