网易首页 > 网易号 > 正文 申请入驻

多模态后训练反常识:长思维链SFT和RL的协同困境

0
分享至



在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

但华为与香港科大的最新研究发现了一个出人意料的现象:在多模态视觉语言模型(VLM)中,这对组合难以实现协同增益,甚至有时会互相拖后腿。



  • 论文标题:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 论文地址:https://www.arxiv.org/abs/2507.07562

推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题,但多模态评测通常包含简单基于感知的问题和复杂的认知推理挑战。作者假设,这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。

为探索各种后训练技术如何影响不同类型问题性能,作者们引入了一个简单有效的难度分类方法,并基于此构建了难度层级细化后的多模态推理榜单数据集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和MMStar val)。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行的成功率,将题目分为五个级别(L1-L5),分别代表从简单到困难:

  • L1 (简单):通过率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通过率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通过率 < 8/16 (31-50%)
  • L4 (中等偏难):2/16 ≤ 通过率 < 5/16 (13-31%)
  • L5 (困难):通过率 < 2/16 (13%)

数据、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma





长思维链 SFT 引导模型反复演算,专攻难题

长思维链 SFT 就像给模型配备了 「超级草稿本」,通过少量带反思验证等思考模式的推理样本训练,让模型学会层层拆解复杂问题:

  • 在 L5 级难题上,它能让 VLM 准确率显著提升,尤其擅长处理 MathVision 中的图文结合推理难题
  • 但在最简单的 L1 级题目(如 「图中有几个红色圆形」)上,反而比基础模型表现更差:多余的推理步骤变成 「画蛇添足」,导致 「摇摆不定」 甚至 「矫枉过正」
  • 经过 Long-CoT SFT 的模型会频繁使用 「首先验证」「其次推导」 等逻辑词,甚至出现 「这里可能算错了」 的人类化思考痕迹,虽然逻辑深度增加,但冗余度飙升至原来的数倍。

RL 强化模型整体性能,能力均衡不偏科

强化学习则像给模型装上 「精准导航」,通过奖励机制引导模型输出高质量答案:

  • 在所有难度级别(L1-L5)均能实现较为稳定的提升,简单题不翻车,中等题表现稳健
  • 输出文本保持了基线模型的高效简洁,极少出现冗余推理
  • 但 RL 的短板也很明显:在 L5 级难题上的提升不及 Long-CoT SFT,复杂逻辑链的构建能力以及反思验证等认知行为无法高效激活



协同困境:五种组合策略全失效

既然 SFT 强于难题、RL 长于均衡,研究团队尝试了五种组合方案,结果令人意外,所有方法都没能实现 「1+1>2」 的效果:

  • 两阶段(先 SFT,后 RL):回答范式固化于冗长思考,性能困于 SFT 水平,RL 优势难以体现
  • 交替式(相邻训练步数交替使用 SFT 和 RL,SFT 损失仅应用于通过率为零的问题,RL 损失应用于其他问题):性能始终卡在两种方法之间,无法突破单一方法上限
  • 渐进式(在训练过程中逐渐减少 SFT 监督,过渡到纯 RL):显示出最大的潜力,难题解决能力高于纯 RL、媲美纯 SFT,但仍是一种折衷,牺牲了部分简单题目的性能
  • 数据混合(将 SFT 和 RL 模型的输出合并到一个统一的数据集中,用于后续训练,其中只有 RL 模型不会做的题目采用 SFT 模型的输出):模型缺乏题目难度感知能力,导致推理风格难以自适应切换,在简单题出现冗长回答和掉点风险
  • 模型合并(使用线性、TIES 和 SLERP 合并技术在不同混合比例下的无训练参数插值):表现出的是性能插值而非叠加增强



其中两阶段、交替式和渐进式的混合训练曲线如图所示



其他实验发现

  • 推理轨迹的质量比数据规模和模态匹配更重要。用 1k 条高质量文本思维链数据(来自 s1.1)做 SFT 微调的效果优于用 34k 多模态推理数据 Eureka-Distill。
  • KL 正则化项有效保持了 RL 长稳训练。没有它,模型容易陷入奖励崩溃、熵减小和响应长度的剧烈波动,最终导致性能不佳。
  • 简单题是 「性能压舱石」。即便简单题的归一化奖励为零,把它们纳入 RL 训练数据也至关重要。它们能通过 KL 约束发挥作用,避免因专注难题训练而丢失处理简单题的基础能力。

未来方向:让模型学会 「见题下菜碟」

1.自适应推理:长思维链 SFT 带来的慢思考和 RL 强化的快思考两种回答范式难以兼容,VLM 的题目异质性更是放大了这种冲突,未来研究应考虑如何有效实现模型自适应推理,对简单题给出简洁回答,对难题采用深度推理。

2.构建模型亲和的训练数据:在此项研究中,长思维链数据是从外部模型蒸馏而来,可能和基线模型存在亲和性不足的风险。为避免损害模型基础能力,应考虑采用其他方式如提示词工程自蒸馏构建训练数据。

3.分层评估体系:将榜单分为不同难度题目,有助于差异化、针对性地评测和优化模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2年内5连败 38岁丁俊晖2-6不敌世界第1:连遭2个3连鞭 尴尬一轮游

2年内5连败 38岁丁俊晖2-6不敌世界第1:连遭2个3连鞭 尴尬一轮游

风过乡
2026-01-15 06:02:08
中泰U23交锋全场数据:控球率四六开,射门11-10&射正2-4

中泰U23交锋全场数据:控球率四六开,射门11-10&射正2-4

懂球帝
2026-01-14 21:57:35
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
央行:1月15日将开展 9000亿元买断式逆回购操作

央行:1月15日将开展 9000亿元买断式逆回购操作

每日经济新闻
2026-01-14 20:57:20
一场2-6,输球不可怕,可怕是丁俊晖赛后一席话,心气彻底打没了

一场2-6,输球不可怕,可怕是丁俊晖赛后一席话,心气彻底打没了

金风说
2026-01-15 00:37:55
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

疯狂的9-0!1人帽子戏法+造5球,欧冠球队踢疯了强势晋级

乌龙球OwnGoal
2026-01-14 09:15:47
中方对萧美琴下达封杀令,向欧洲发出照会后,加拿大议员取消窜台

中方对萧美琴下达封杀令,向欧洲发出照会后,加拿大议员取消窜台

吃货的分享
2026-01-15 05:37:44
2026年养老金迎利好消息!按调整公式,1956年以前人员或调整更多

2026年养老金迎利好消息!按调整公式,1956年以前人员或调整更多

有范又有料
2026-01-14 09:22:09
漳州夫妇省吃俭用40万炒股一年不看,再去营业厅打明细后当场哭了

漳州夫妇省吃俭用40万炒股一年不看,再去营业厅打明细后当场哭了

崖边行
2025-12-31 22:51:22
化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

化身叹息之墙!U23亚洲杯小组赛扑救榜:李昊16次大幅领先

懂球帝
2026-01-15 00:27:09
南韩第一腿模!黑丝!杀伤力太大了!

南韩第一腿模!黑丝!杀伤力太大了!

碧波万览
2026-01-15 00:24:31
卡尼万万没想到,启程访华前夕,赖清德突然捣乱,一句话坏他好事

卡尼万万没想到,启程访华前夕,赖清德突然捣乱,一句话坏他好事

风干迷茫人
2026-01-15 06:07:48
U23亚洲杯小组赛解围榜:彭啸37次断档领先,贺一然排名第六

U23亚洲杯小组赛解围榜:彭啸37次断档领先,贺一然排名第六

懂球帝
2026-01-15 00:14:22
惊天大反转!伊朗断网围猎美以间谍,马斯克紧急启动星链送上助攻

惊天大反转!伊朗断网围猎美以间谍,马斯克紧急启动星链送上助攻

兴史兴谈
2026-01-15 06:22:59
演员成毅车辆被人喷红漆,工作室发声明:艺人及家人持续遭受跟踪与骚扰,已向公安机关要求采取必要措施

演员成毅车辆被人喷红漆,工作室发声明:艺人及家人持续遭受跟踪与骚扰,已向公安机关要求采取必要措施

鲁中晨报
2026-01-14 20:47:03
特大新闻!中国4艘舰艇抵达美国家门口!俄:只有中国能让美沉默

特大新闻!中国4艘舰艇抵达美国家门口!俄:只有中国能让美沉默

爱吃醋的猫咪
2026-01-12 21:58:17
网红牙膏,被立案

网红牙膏,被立案

中国新闻周刊
2026-01-13 07:34:04
特朗普急着大炼稀土,却发现一个致命真相:中国同时垄断两样东西

特朗普急着大炼稀土,却发现一个致命真相:中国同时垄断两样东西

菠萝欣赏家本尊
2026-01-14 16:16:48
你们知道香港这边的消费有多离谱吗?

你们知道香港这边的消费有多离谱吗?

流苏晚晴
2026-01-10 16:30:12
2026-01-15 07:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

家居
健康
亲子
艺术
公开课

家居要闻

心之所向 现代建构之美

血常规3项异常,是身体警报!

亲子要闻

家长要告诉孩子一生遇到都是有用的人

艺术要闻

历代书家集字春联大集合

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版