网易首页 > 网易号 > 正文 申请入驻

多模态后训练反常识:长思维链SFT和RL的协同困境

0
分享至

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

但华为与香港科大的最新研究发现了一个出人意料的现象:在多模态视觉语言模型(VLM)中,这对组合难以实现协同增益,甚至有时会互相拖后腿。

  • 论文标题:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 论文地址:https://www.arxiv.org/abs/2507.07562

推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题,但多模态评测通常包含简单基于感知的问题和复杂的认知推理挑战。作者假设,这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。

为探索各种后训练技术如何影响不同类型问题性能,作者们引入了一个简单有效的难度分类方法,并基于此构建了难度层级细化后的多模态推理榜单数据集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和MMStar val)。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行的成功率,将题目分为五个级别(L1-L5),分别代表从简单到困难:

  • L1 (简单):通过率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通过率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通过率 < 8/16 (31-50%)
  • L4 (中等偏难):2/16 ≤ 通过率 < 5/16 (13-31%)
  • L5 (困难):通过率 < 2/16 (13%)

数据、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma

长思维链 SFT 引导模型反复演算,专攻难题

长思维链 SFT 就像给模型配备了 「超级草稿本」,通过少量带反思验证等思考模式的推理样本训练,让模型学会层层拆解复杂问题:

  • 在 L5 级难题上,它能让 VLM 准确率显著提升,尤其擅长处理 MathVision 中的图文结合推理难题
  • 但在最简单的 L1 级题目(如 「图中有几个红色圆形」)上,反而比基础模型表现更差:多余的推理步骤变成 「画蛇添足」,导致 「摇摆不定」 甚至 「矫枉过正」
  • 经过 Long-CoT SFT 的模型会频繁使用 「首先验证」「其次推导」 等逻辑词,甚至出现 「这里可能算错了」 的人类化思考痕迹,虽然逻辑深度增加,但冗余度飙升至原来的数倍。

RL 强化模型整体性能,能力均衡不偏科

强化学习则像给模型装上 「精准导航」,通过奖励机制引导模型输出高质量答案:

  • 在所有难度级别(L1-L5)均能实现较为稳定的提升,简单题不翻车,中等题表现稳健
  • 输出文本保持了基线模型的高效简洁,极少出现冗余推理
  • 但 RL 的短板也很明显:在 L5 级难题上的提升不及 Long-CoT SFT,复杂逻辑链的构建能力以及反思验证等认知行为无法高效激活

协同困境:五种组合策略全失效

既然 SFT 强于难题、RL 长于均衡,研究团队尝试了五种组合方案,结果令人意外,所有方法都没能实现 「1+1>2」 的效果:

  • 两阶段(先 SFT,后 RL):回答范式固化于冗长思考,性能困于 SFT 水平,RL 优势难以体现
  • 交替式(相邻训练步数交替使用 SFT 和 RL,SFT 损失仅应用于通过率为零的问题,RL 损失应用于其他问题):性能始终卡在两种方法之间,无法突破单一方法上限
  • 渐进式(在训练过程中逐渐减少 SFT 监督,过渡到纯 RL):显示出最大的潜力,难题解决能力高于纯 RL、媲美纯 SFT,但仍是一种折衷,牺牲了部分简单题目的性能
  • 数据混合(将 SFT 和 RL 模型的输出合并到一个统一的数据集中,用于后续训练,其中只有 RL 模型不会做的题目采用 SFT 模型的输出):模型缺乏题目难度感知能力,导致推理风格难以自适应切换,在简单题出现冗长回答和掉点风险
  • 模型合并(使用线性、TIES 和 SLERP 合并技术在不同混合比例下的无训练参数插值):表现出的是性能插值而非叠加增强

其中两阶段、交替式和渐进式的混合训练曲线如图所示

其他实验发现

  • 推理轨迹的质量比数据规模和模态匹配更重要。用 1k 条高质量文本思维链数据(来自 s1.1)做 SFT 微调的效果优于用 34k 多模态推理数据 Eureka-Distill。
  • KL 正则化项有效保持了 RL 长稳训练。没有它,模型容易陷入奖励崩溃、熵减小和响应长度的剧烈波动,最终导致性能不佳。
  • 简单题是 「性能压舱石」。即便简单题的归一化奖励为零,把它们纳入 RL 训练数据也至关重要。它们能通过 KL 约束发挥作用,避免因专注难题训练而丢失处理简单题的基础能力。

未来方向:让模型学会 「见题下菜碟」

1.自适应推理:长思维链 SFT 带来的慢思考和 RL 强化的快思考两种回答范式难以兼容,VLM 的题目异质性更是放大了这种冲突,未来研究应考虑如何有效实现模型自适应推理,对简单题给出简洁回答,对难题采用深度推理。

2.构建模型亲和的训练数据:在此项研究中,长思维链数据是从外部模型蒸馏而来,可能和基线模型存在亲和性不足的风险。为避免损害模型基础能力,应考虑采用其他方式如提示词工程自蒸馏构建训练数据。

3.分层评估体系:将榜单分为不同难度题目,有助于差异化、针对性地评测和优化模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

江苏卧床35年女子诞下健康宝宝:患有脊髓性肌萎缩症,从8个月起便常年卧床;分娩风险高,在孩子足月的情况下进行剖宫产

潇湘晨报
2026-03-26 11:49:57
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
局地大到暴雨 南方将迎今年首场大范围强对流天气

局地大到暴雨 南方将迎今年首场大范围强对流天气

财联社
2026-03-26 18:35:03
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报政事儿
2026-03-26 17:13:05
伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

讲者普拉斯
2026-03-26 21:19:51
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

心源性猝死不是绝症,心脏骤停才要命,张雪峰倒下时没人按压。

野渡舟山人
2026-03-25 20:17:34
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
伊朗工业、矿业和贸易部长:全国生产活动不会中断

伊朗工业、矿业和贸易部长:全国生产活动不会中断

财联社
2026-03-26 14:46:09
亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

亚洲首个倒下的国家要出现了?曾叫嚣取代中国,如今却步日本后尘

阿晪美食
2026-03-26 15:02:52
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
广州中考体育考试将于4月8日开考,市招考办发布温馨提示

广州中考体育考试将于4月8日开考,市招考办发布温馨提示

南方都市报
2026-03-26 20:06:42
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

爱史纪
2026-03-26 19:30:35
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
2026-03-26 22:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
时尚
本地
健康

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

亲子要闻

你好,我是馒头,快开门!

上新|| 她们说,找到了自己的人生裙子!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版