网易首页 > 网易号 > 正文 申请入驻

大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题

0
分享至



从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 “听觉” 后,它的智商下降了。

即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为“模态推理鸿沟”(Modality Reasoning Gap)

这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 “天花板”:

  • 根据Big Bench Audio评测,以 GPT-4o 为例,在纯文本任务(Text-to-Text)的准确率达92%;但一旦切换到端到端语音模式(Speech-to-Speech),其得分跌至66%。这中间26%的巨大跌幅,就是模型引入语音而付出的代价。
  • Google Gemini 团队在技术分享中将其定义为Intelligence Gap;而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种Intelligence Regression,并提出了一个生动的概念Multimodal Tax,即引入音频等多模态数据往往会 “挤占” 模型用于纯推理的能力。





为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调,而是通过对齐 “思维轨迹”,成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。



  • 论文题目: Closing the Modality Reasoning Gap for Speech Large Language Models
  • 论文链接: https://arxiv.org/abs/2601.05543

核心痛点:为什么模型 “听” 得越多,“想” 得越偏?

目前的语音大模型(Speech LLM)通常采用 “语音编码器 + 适配器 + LLM” 的三段式架构。理论上,这应该能让语音输入无缝借用 LLM 强大的推理大脑。但现实是:引入语音模态后,推理能力出现了断崖式下跌

此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷:

1. 输入端强行对齐(Input Fusion):

试图让语音特征在输入层就长得和文本 Embedding 一样。但语音天然包含语气、停顿等富语言信息,与紧凑的文本本质不同。仅依靠输入对齐这种表面功夫,无法解决深层的表征漂移(Representation Drift)—— 随着 Transformer 层数加深,语音激发的隐藏状态(Hidden States)会逐渐偏离文本的思考轨迹(即相同语义纯文本输入时,文本激发的隐藏状态),导致 “想岔了”。

2. 输出端死记硬背(SFT / 蒸馏):

这是最主流的做法,即通过监督微调(SFT)利用静态的 “语音 - 文本” 数据对进行训练,或者通过知识蒸馏(Distillation)让文本分支作为 “老师” 来指导语音分支这个 “学生”。这些本质上都属于 Off-policy(离线策略),试图强行让语音分支去模仿文本的 Token 输出分布。但这有两个问题:

  • 目标不可达: 语音的噪声和副语言特征决定了其输出分布不可能和纯文本完全一致。
  • Exposure Bias: 这种静态监督无法容错。推理时只要错一个 Token,模型就会跌入训练未见过的状态,导致后续回复全盘崩溃。

TARS 的核心洞察在于: 既然死记硬背行不通,能不能用强化学习(RL),让模型自己在 “思考过程” 中去动态对齐文本的轨迹,而不是对齐具体的字?

TARS:用强化学习重塑语音推理轨迹

TARS 是一个基于On-policy RL(具体采用 GRPO)的对齐框架。它巧妙地利用模型自身的文本分支作为 “动态导师”,通过三个关键创新,把语音分支的 “脑回路” 掰回来。



创新一:表征对齐(Representation Alignment)

既然 Gap 和 “表征漂移” 相关,TARS 选择直接从模型内部开刀。

  • 做法: 计算语音作为输入,推理过程中每一层的隐藏状态(Hidden States),与同一模型在文本输入下(文本输入和语音输入在语义上完全相同)的隐藏状态计算余弦相似度,作为表征对齐奖励。



  • 作用: 这就像给语音分支装了一个 “导航仪”。它不再只关注结果,而是引导语音分支的每一层思维路径都时刻紧跟文本分支的轨迹,防止跑偏。

创新二:行为对齐(Behavior Alignment)

为了避免 SFT 的死板,TARS 在输出端引入了更灵活的对齐标准。





  • 作用: 解决了 “目标不可达” 的问题。允许语音和文本在措辞上有差异,只要逻辑对、意思对就能拿分。这让模型在探索中学会了自我修正,而非机械模仿。

创新三:非对称奖励与模态归一化

在 RL 训练设计上,TARS 针对模态差异做了对应优化:

1.非对称奖励(Asymmetric Reward): 文本分支只拿基础奖励(保住基本盘),语音分支额外拿对齐奖励(拼命追赶文本)。



2.模态特定归一化(Modality-Specific Normalization): 这一点至关重要。由于语音推理更难,往往得分较低,如果混合归一化,语音分支会一直收到负梯度。TARS 将两者分开归一化,让语音分支 “自己跟自己比”,保证了持续的优化梯度 —— 即使在所有样本任务准确率都为 0 的极端困难情况下,对齐奖励依然能指导模型进步。



实验结果:推理能力 100% 复原

团队在UnifiedQA数据集上训练,并在MMSUOBQA两个高难度语音推理榜单上进行了验证。实验基于 Qwen2.5-Omni 和 Phi-4-MM 架构。

核心战绩:MRR 突破 100%





  • 模态恢复率(MRR): TARS 在 7B 模型上达到了100.45%(Table 1 最后一行)。这意味着,语音输入的推理能力不仅完全填补了引入音频带来的坑,甚至略微超过了文本基座的表现。
  • 碾压基线: 相比 SALAD、AlignChat、KD 等 SOTA 方法,TARS 在 Phi-4-MM 上的准确率达到了79.80%(Table 1 最后一行),稳居 7B 规模模型第一,且显著优于 SFT 和 DPO 基线(Table 2)。

TARS 不是在拆东墙补西墙!

实验发现,TARS 的对齐并不是 “拆东墙补西墙”。在使用 TARS 训练后,模型的文本准确率也同步提升(Qwen: +2.39%, Phi: +5.43%)。这证明语音模态学习到的知识,能够同时增强文本的推理能力。

总结与展望

TARS 的提出标志着语音大模型研究的一个转折点:

1.范式转变: 证明了On-policy RL在解决模态对齐问题上优于传统的 Off-policy(SFT / 蒸馏)方法。

2.轨迹对齐: 提出的 “表征(过程)+ 行为(结果)” 对齐策略,有效消除模态推理鸿沟。

TARS 证明了语音大模型完全可以拥有和纯文本模型同等的 “智商”。对于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一条通往高智商语音交互的可行路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

肖兹探秘说
2026-01-14 20:41:32
贾玲米兰时装周生图曝光!大背头造型一言难尽,网友嘲讽撞脸姜昆

贾玲米兰时装周生图曝光!大背头造型一言难尽,网友嘲讽撞脸姜昆

小徐讲八卦
2026-01-19 10:00:54
辽宁男篮VS山西!杨鸣全力出击,亨特确定不打,央视直播

辽宁男篮VS山西!杨鸣全力出击,亨特确定不打,央视直播

体坛瞎白话
2026-01-19 16:02:21
赶紧关张倒闭,没人拦着您

赶紧关张倒闭,没人拦着您

在远方的德彪
2026-01-17 18:48:56
汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

小嶯说故事
2026-01-19 12:57:15
《镖人》预告片,这阵容不得100亿!

《镖人》预告片,这阵容不得100亿!

喜欢历史的阿繁
2026-01-19 12:07:43
叶文斌,找到了!

叶文斌,找到了!

中国新闻周刊
2026-01-19 15:47:29
贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

贾国龙摊牌了:若西贝活不下来,绝不会再创业,和夫人回草原养羊

削桐作琴
2025-12-26 23:57:15
三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

削桐作琴
2026-01-08 21:22:07
盲人歌手刘赛:7年前,不顾反对嫁到农村,如今丈夫成了她的骄傲

盲人歌手刘赛:7年前,不顾反对嫁到农村,如今丈夫成了她的骄傲

查尔菲的笔记
2026-01-14 21:51:33
吉林省第一高楼竣工,总投资66.3亿元

吉林省第一高楼竣工,总投资66.3亿元

界面新闻
2026-01-19 15:45:49
美军枪口一夜转向台海!F35琉球集结侦察船挑衅,中国反制已亮剑

美军枪口一夜转向台海!F35琉球集结侦察船挑衅,中国反制已亮剑

薛小荣
2026-01-18 19:24:11
李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

极目新闻
2026-01-17 08:47:37
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
排除中俄,川普邀60国建群取代联合国,中国想入群,先交10亿美元

排除中俄,川普邀60国建群取代联合国,中国想入群,先交10亿美元

阿天爱旅行
2026-01-19 15:14:02
调查发现:只要空腹血糖没超这个值,该吃吃该喝喝,别自己吓自己

调查发现:只要空腹血糖没超这个值,该吃吃该喝喝,别自己吓自己

蜉蝣说
2026-01-19 11:56:03
美国阻挠向中国运送机组训练设备,宣称其使用了美国技术,南非试飞学院否认

美国阻挠向中国运送机组训练设备,宣称其使用了美国技术,南非试飞学院否认

环球网资讯
2026-01-19 07:00:41
罕见!日媒关注U23国足:“难以置信”+“谁说乌兹会5比0赢的”

罕见!日媒关注U23国足:“难以置信”+“谁说乌兹会5比0赢的”

足球大腕
2026-01-18 21:48:42
“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

壹知眠羊
2025-08-10 07:29:29
身价上千亿?深扒之下,终于知道李湘的钱都是从哪里来的了!

身价上千亿?深扒之下,终于知道李湘的钱都是从哪里来的了!

清晨的世界
2026-01-18 10:10:27
2026-01-19 16:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12144文章数 142546关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

时尚
教育
旅游
数码
公开课

伊姐周日热推:电视剧《看得见风景的窗》;电视剧《春日狂热》......

教育要闻

“打了没用,是打得不够狠”,家长晒女儿哭闹视频,网友看清现实

旅游要闻

60分钟航程穿越千年,“大运扬州”游船演艺缘何跻身国家级精品?

数码要闻

当贝预热Dangbei Air 1蓝牙耳机,1月22日正式发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版