网易首页 > 网易号 > 正文 申请入驻

多模态后训练反常识:长思维链SFT和RL的协同困境

0
分享至

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

但华为与香港科大的最新研究发现了一个出人意料的现象:在多模态视觉语言模型(VLM)中,这对组合难以实现协同增益,甚至有时会互相拖后腿。

  • 论文标题:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 论文地址:https://www.arxiv.org/abs/2507.07562

推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题,但多模态评测通常包含简单基于感知的问题和复杂的认知推理挑战。作者假设,这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。

为探索各种后训练技术如何影响不同类型问题性能,作者们引入了一个简单有效的难度分类方法,并基于此构建了难度层级细化后的多模态推理榜单数据集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和MMStar val)。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行的成功率,将题目分为五个级别(L1-L5),分别代表从简单到困难:

  • L1 (简单):通过率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通过率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通过率 < 8/16 (31-50%)
  • L4 (中等偏难):2/16 ≤ 通过率 < 5/16 (13-31%)
  • L5 (困难):通过率 < 2/16 (13%)

数据、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma

长思维链 SFT 引导模型反复演算,专攻难题

长思维链 SFT 就像给模型配备了 「超级草稿本」,通过少量带反思验证等思考模式的推理样本训练,让模型学会层层拆解复杂问题:

  • 在 L5 级难题上,它能让 VLM 准确率显著提升,尤其擅长处理 MathVision 中的图文结合推理难题
  • 但在最简单的 L1 级题目(如 「图中有几个红色圆形」)上,反而比基础模型表现更差:多余的推理步骤变成 「画蛇添足」,导致 「摇摆不定」 甚至 「矫枉过正」
  • 经过 Long-CoT SFT 的模型会频繁使用 「首先验证」「其次推导」 等逻辑词,甚至出现 「这里可能算错了」 的人类化思考痕迹,虽然逻辑深度增加,但冗余度飙升至原来的数倍。

RL 强化模型整体性能,能力均衡不偏科

强化学习则像给模型装上 「精准导航」,通过奖励机制引导模型输出高质量答案:

  • 在所有难度级别(L1-L5)均能实现较为稳定的提升,简单题不翻车,中等题表现稳健
  • 输出文本保持了基线模型的高效简洁,极少出现冗余推理
  • 但 RL 的短板也很明显:在 L5 级难题上的提升不及 Long-CoT SFT,复杂逻辑链的构建能力以及反思验证等认知行为无法高效激活

协同困境:五种组合策略全失效

既然 SFT 强于难题、RL 长于均衡,研究团队尝试了五种组合方案,结果令人意外,所有方法都没能实现 「1+1>2」 的效果:

  • 两阶段(先 SFT,后 RL):回答范式固化于冗长思考,性能困于 SFT 水平,RL 优势难以体现
  • 交替式(相邻训练步数交替使用 SFT 和 RL,SFT 损失仅应用于通过率为零的问题,RL 损失应用于其他问题):性能始终卡在两种方法之间,无法突破单一方法上限
  • 渐进式(在训练过程中逐渐减少 SFT 监督,过渡到纯 RL):显示出最大的潜力,难题解决能力高于纯 RL、媲美纯 SFT,但仍是一种折衷,牺牲了部分简单题目的性能
  • 数据混合(将 SFT 和 RL 模型的输出合并到一个统一的数据集中,用于后续训练,其中只有 RL 模型不会做的题目采用 SFT 模型的输出):模型缺乏题目难度感知能力,导致推理风格难以自适应切换,在简单题出现冗长回答和掉点风险
  • 模型合并(使用线性、TIES 和 SLERP 合并技术在不同混合比例下的无训练参数插值):表现出的是性能插值而非叠加增强

其中两阶段、交替式和渐进式的混合训练曲线如图所示

其他实验发现

  • 推理轨迹的质量比数据规模和模态匹配更重要。用 1k 条高质量文本思维链数据(来自 s1.1)做 SFT 微调的效果优于用 34k 多模态推理数据 Eureka-Distill。
  • KL 正则化项有效保持了 RL 长稳训练。没有它,模型容易陷入奖励崩溃、熵减小和响应长度的剧烈波动,最终导致性能不佳。
  • 简单题是 「性能压舱石」。即便简单题的归一化奖励为零,把它们纳入 RL 训练数据也至关重要。它们能通过 KL 约束发挥作用,避免因专注难题训练而丢失处理简单题的基础能力。

未来方向:让模型学会 「见题下菜碟」

1.自适应推理:长思维链 SFT 带来的慢思考和 RL 强化的快思考两种回答范式难以兼容,VLM 的题目异质性更是放大了这种冲突,未来研究应考虑如何有效实现模型自适应推理,对简单题给出简洁回答,对难题采用深度推理。

2.构建模型亲和的训练数据:在此项研究中,长思维链数据是从外部模型蒸馏而来,可能和基线模型存在亲和性不足的风险。为避免损害模型基础能力,应考虑采用其他方式如提示词工程自蒸馏构建训练数据。

3.分层评估体系:将榜单分为不同难度题目,有助于差异化、针对性地评测和优化模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1300亿的果链龙头,爆雷了

1300亿的果链龙头,爆雷了

股市动态分析
2026-04-17 08:55:03
暴力抗法的拼多多,不送外卖,却被罚的最重,别让低价毁了制造业

暴力抗法的拼多多,不送外卖,却被罚的最重,别让低价毁了制造业

王新喜
2026-04-18 20:31:06
美国至少10名科研人员离奇死亡或神秘失踪引发广泛关注!大都接触UFO、航空航天、原子能等涉密项目,白宫承诺:彻查

美国至少10名科研人员离奇死亡或神秘失踪引发广泛关注!大都接触UFO、航空航天、原子能等涉密项目,白宫承诺:彻查

大风新闻
2026-04-20 09:35:11
“DeepSeek首次融资”传闻震动市场!寒武纪、沐曦股份、摩尔线程和张雪机车的天使投资人都回应了

“DeepSeek首次融资”传闻震动市场!寒武纪、沐曦股份、摩尔线程和张雪机车的天使投资人都回应了

证券时报
2026-04-19 22:52:02
网购的2800多元垃圾桶退货时被申通弄坏 商家拒收后天猫极速退款变欠款 网购退货在途风险该谁担

网购的2800多元垃圾桶退货时被申通弄坏 商家拒收后天猫极速退款变欠款 网购退货在途风险该谁担

信网
2026-04-19 14:15:08
一个卡扣要换13万电池包!国产这种售后,到外国会罚到怀疑人生!

一个卡扣要换13万电池包!国产这种售后,到外国会罚到怀疑人生!

沙雕小琳琳
2026-04-19 12:32:36
实锤!38人遇难客机确系俄军击落,中国蒙受巨额损失,普京低头

实锤!38人遇难客机确系俄军击落,中国蒙受巨额损失,普京低头

阿校谈史
2026-04-20 02:30:08
恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

小曙说娱
2026-04-19 00:27:45
伊朗向中国通报!谈判团差点被美军“团灭”,全程连电话都不敢打

伊朗向中国通报!谈判团差点被美军“团灭”,全程连电话都不敢打

荷兰豆爱健康
2026-04-19 21:53:37
5月1日起全面严查!在职退休无一例外,这几类人好日子到头了

5月1日起全面严查!在职退休无一例外,这几类人好日子到头了

开心美食白科
2026-04-20 05:31:06
瑞典:国王拒绝与泽连斯基握手的说法,是“错误且丑陋的”。俄媒在这个问题上断章取义!

瑞典:国王拒绝与泽连斯基握手的说法,是“错误且丑陋的”。俄媒在这个问题上断章取义!

李未熟擒话2
2026-04-19 17:08:59
复杂的黎巴嫩,走投无路的真主党

复杂的黎巴嫩,走投无路的真主党

寰宇大观察
2026-04-17 17:36:11
涉案金额2.6亿元!我国摧毁特大假酒网络

涉案金额2.6亿元!我国摧毁特大假酒网络

每日经济新闻
2026-04-19 15:31:45
香港一工地近百人追讨欠薪,结果网友们却乐了

香港一工地近百人追讨欠薪,结果网友们却乐了

映射生活的身影
2026-04-19 09:55:59
美军:向一艘伊朗货船开火,随后登上并控制这艘货船;伊朗:该船导航系统瘫痪,美国犯下“海上劫掠”罪行

美军:向一艘伊朗货船开火,随后登上并控制这艘货船;伊朗:该船导航系统瘫痪,美国犯下“海上劫掠”罪行

大风新闻
2026-04-20 09:25:02
到底得有多坏,才能做出这么丧尽天良的事!

到底得有多坏,才能做出这么丧尽天良的事!

胖胖说他不胖
2026-04-19 09:00:30
李雨桐泄露薛之谦身份证号手机号,被警方行拘!此前实名举报,指控其“致自己堕胎,长期遭受网暴”

李雨桐泄露薛之谦身份证号手机号,被警方行拘!此前实名举报,指控其“致自己堕胎,长期遭受网暴”

现代快报
2026-04-20 09:54:34
倒反天罡?匈牙利新总理要求总统辞职,否则就将直接罢免

倒反天罡?匈牙利新总理要求总统辞职,否则就将直接罢免

民间胡扯老哥
2026-04-19 01:13:26
成龙的地位到底多高 看网友讲述他的国籍影响力 发现高到无法想象

成龙的地位到底多高 看网友讲述他的国籍影响力 发现高到无法想象

侃神评故事
2026-04-19 17:40:03
英海事分析公司:过去36小时有35艘船只在驶出霍尔木兹海峡途中掉头

英海事分析公司:过去36小时有35艘船只在驶出霍尔木兹海峡途中掉头

界面新闻
2026-04-20 08:43:33
2026-04-20 12:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12803文章数 142632关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

数码
健康
旅游
本地
军事航空

数码要闻

小米米家中央空调人感风风管机双出风预售:超一级能效,8999元

干细胞抗衰4大误区,90%的人都中招

旅游要闻

赣鄱千年道:见证一片叶子的多种“打开方式”

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版