网易首页 > 网易号 > 正文 申请入驻

多模态后训练反常识:长思维链SFT和RL的协同困境

0
分享至



在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

但华为与香港科大的最新研究发现了一个出人意料的现象:在多模态视觉语言模型(VLM)中,这对组合难以实现协同增益,甚至有时会互相拖后腿。



  • 论文标题:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 论文地址:https://www.arxiv.org/abs/2507.07562

推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题,但多模态评测通常包含简单基于感知的问题和复杂的认知推理挑战。作者假设,这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。

为探索各种后训练技术如何影响不同类型问题性能,作者们引入了一个简单有效的难度分类方法,并基于此构建了难度层级细化后的多模态推理榜单数据集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和MMStar val)。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行的成功率,将题目分为五个级别(L1-L5),分别代表从简单到困难:

  • L1 (简单):通过率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通过率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通过率 < 8/16 (31-50%)
  • L4 (中等偏难):2/16 ≤ 通过率 < 5/16 (13-31%)
  • L5 (困难):通过率 < 2/16 (13%)

数据、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma





长思维链 SFT 引导模型反复演算,专攻难题

长思维链 SFT 就像给模型配备了 「超级草稿本」,通过少量带反思验证等思考模式的推理样本训练,让模型学会层层拆解复杂问题:

  • 在 L5 级难题上,它能让 VLM 准确率显著提升,尤其擅长处理 MathVision 中的图文结合推理难题
  • 但在最简单的 L1 级题目(如 「图中有几个红色圆形」)上,反而比基础模型表现更差:多余的推理步骤变成 「画蛇添足」,导致 「摇摆不定」 甚至 「矫枉过正」
  • 经过 Long-CoT SFT 的模型会频繁使用 「首先验证」「其次推导」 等逻辑词,甚至出现 「这里可能算错了」 的人类化思考痕迹,虽然逻辑深度增加,但冗余度飙升至原来的数倍。

RL 强化模型整体性能,能力均衡不偏科

强化学习则像给模型装上 「精准导航」,通过奖励机制引导模型输出高质量答案:

  • 在所有难度级别(L1-L5)均能实现较为稳定的提升,简单题不翻车,中等题表现稳健
  • 输出文本保持了基线模型的高效简洁,极少出现冗余推理
  • 但 RL 的短板也很明显:在 L5 级难题上的提升不及 Long-CoT SFT,复杂逻辑链的构建能力以及反思验证等认知行为无法高效激活



协同困境:五种组合策略全失效

既然 SFT 强于难题、RL 长于均衡,研究团队尝试了五种组合方案,结果令人意外,所有方法都没能实现 「1+1>2」 的效果:

  • 两阶段(先 SFT,后 RL):回答范式固化于冗长思考,性能困于 SFT 水平,RL 优势难以体现
  • 交替式(相邻训练步数交替使用 SFT 和 RL,SFT 损失仅应用于通过率为零的问题,RL 损失应用于其他问题):性能始终卡在两种方法之间,无法突破单一方法上限
  • 渐进式(在训练过程中逐渐减少 SFT 监督,过渡到纯 RL):显示出最大的潜力,难题解决能力高于纯 RL、媲美纯 SFT,但仍是一种折衷,牺牲了部分简单题目的性能
  • 数据混合(将 SFT 和 RL 模型的输出合并到一个统一的数据集中,用于后续训练,其中只有 RL 模型不会做的题目采用 SFT 模型的输出):模型缺乏题目难度感知能力,导致推理风格难以自适应切换,在简单题出现冗长回答和掉点风险
  • 模型合并(使用线性、TIES 和 SLERP 合并技术在不同混合比例下的无训练参数插值):表现出的是性能插值而非叠加增强



其中两阶段、交替式和渐进式的混合训练曲线如图所示



其他实验发现

  • 推理轨迹的质量比数据规模和模态匹配更重要。用 1k 条高质量文本思维链数据(来自 s1.1)做 SFT 微调的效果优于用 34k 多模态推理数据 Eureka-Distill。
  • KL 正则化项有效保持了 RL 长稳训练。没有它,模型容易陷入奖励崩溃、熵减小和响应长度的剧烈波动,最终导致性能不佳。
  • 简单题是 「性能压舱石」。即便简单题的归一化奖励为零,把它们纳入 RL 训练数据也至关重要。它们能通过 KL 约束发挥作用,避免因专注难题训练而丢失处理简单题的基础能力。

未来方向:让模型学会 「见题下菜碟」

1.自适应推理:长思维链 SFT 带来的慢思考和 RL 强化的快思考两种回答范式难以兼容,VLM 的题目异质性更是放大了这种冲突,未来研究应考虑如何有效实现模型自适应推理,对简单题给出简洁回答,对难题采用深度推理。

2.构建模型亲和的训练数据:在此项研究中,长思维链数据是从外部模型蒸馏而来,可能和基线模型存在亲和性不足的风险。为避免损害模型基础能力,应考虑采用其他方式如提示词工程自蒸馏构建训练数据。

3.分层评估体系:将榜单分为不同难度题目,有助于差异化、针对性地评测和优化模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉达联合主席:我们曾为梅西提供年薪14亿欧合同,但他拒绝了

吉达联合主席:我们曾为梅西提供年薪14亿欧合同,但他拒绝了

懂球帝
2026-01-14 06:04:47
最新消息:“马背上的女县长”贺娇龙抢救无效去世!精彩过往曝出

最新消息:“马背上的女县长”贺娇龙抢救无效去世!精彩过往曝出

胡侃社会百态
2026-01-15 03:41:25
中国队出线1小时传双利好,1-4决赛已定,四强可期

中国队出线1小时传双利好,1-4决赛已定,四强可期

郭錉包工头
2026-01-15 03:05:34
0分1板+正负值最低,状元郎回家不会打球了?球迷:不敢打就下去

0分1板+正负值最低,状元郎回家不会打球了?球迷:不敢打就下去

弄月公子
2026-01-14 21:53:25
何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

何晴去世30天,儿子许何终于发声,字字催泪,才知许亚军有多体面

叨唠
2026-01-14 05:55:37
震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

刀刃故事
2024-11-22 01:55:03
沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井?

沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井?

老杉说历史
2026-01-14 19:59:18
3:1!凯恩哑火送助攻,拜仁刷新德甲半程最佳,12连胜杀人诛心

3:1!凯恩哑火送助攻,拜仁刷新德甲半程最佳,12连胜杀人诛心

阿超他的体育圈
2026-01-15 05:45:59
一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

项鹏飞
2026-01-13 18:42:53
2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

复转这些年
2026-01-08 23:43:01
高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

玛丽莲萌兔
2026-01-14 22:50:47
日本自卫队支持率飙至93.7% 创60年代以来历史峰值

日本自卫队支持率飙至93.7% 创60年代以来历史峰值

老马拉车莫少装
2026-01-12 19:17:59
伊朗和沙特淘汰后,中国U23是本届亚洲杯目前身价最高球队

伊朗和沙特淘汰后,中国U23是本届亚洲杯目前身价最高球队

懂球帝
2026-01-15 00:25:05
俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

秀秀情感课堂
2026-01-13 13:40:03
哥俩好!波尔向樊振东赠送多特蒙德马年贺岁卫衣,东哥笑得合不拢嘴

哥俩好!波尔向樊振东赠送多特蒙德马年贺岁卫衣,东哥笑得合不拢嘴

818体育
2026-01-14 20:17:06
整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

安安说
2026-01-12 14:15:45
疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

乌龙球OwnGoal
2026-01-14 09:15:47
最新排名!浙江杀到第4,辽宁第11,山东官宣第4外援,曾获篮板王

最新排名!浙江杀到第4,辽宁第11,山东官宣第4外援,曾获篮板王

老吴说体育
2026-01-15 00:21:03
国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

细说职场
2026-01-05 16:58:04
价格腰斩,又鲜又嫩,浙江人爱吃的下饭菜,可以出手了

价格腰斩,又鲜又嫩,浙江人爱吃的下饭菜,可以出手了

浙江之声
2026-01-14 10:26:31
2026-01-15 06:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
艺术
教育
手机
军事航空

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

艺术要闻

历代书家集字春联大集合

教育要闻

孩子的人生底色,真不是靠补习班

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版