网易首页 > 网易号 > 正文 申请入驻

RL才会泛化?上海AI Lab系统研究:SFT也能学会跨域推理

0
分享至

本篇论文针对业界普遍认为监督微调仅具备记忆能力、强化学习才可实现泛化的固有认知展开反思。依托控制变量实验证实,监督微调并非天生缺失跨领域泛化性,其泛化效果受优化程度、数据特质与基础模型性能共同影响,过往相关否定结论多由实验条件局限导致,并非该训练范式本身存在本质缺陷。


论文标题: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability 论文链接: https://arxiv.org/abs/2604.06628 Github链接:https://github.com/Nebularaid2000/rethink_sft_generalization

一、引言

随着大语言模型后训练(Post-training)技术的飞速演进,强化学习(RL)在提升模型复杂推理能力方面的卓越表现备受瞩目。

在此背景下,一个广为流传的观点是 “SFT(监督微调)仅能记忆,而 RL(强化学习)带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证,并在一定程度上主导了学术界对两类训练范式的认知。

然而,“SFT 的泛化能力差”是否是一个绝对的结论?

近期,来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作,通过系统性的控制变量实验揭示了上述观点的局限性。

该研究的核心结论是:SFT 的跨领域泛化能力并非天然缺失,而是一种受多重因素制约的条件属性

具体而言,泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论,可能源于实验设定的局限,而非 SFT 目标函数本身的固有缺陷。

二、发现一:优化不充分可能是“不泛化”假象的根源 2.1 短训练轮次下的现象复现

研究团队首先复现了部分相关工作发现的现象:使用 2 万条经过验证的高质量长思维链(Long-CoT)数学数据,对 Qwen3-14B-Base 模型进行单轮(1 epoch)微调。

结果与先前研究一致:模型在同分布数学任务(如 AIME)上表现显著提升,但在分布外任务(如代码生成、科学推理)上增益有限,甚至在指令遵循等通用能力评测上出现退化。


2.2 延长训练后的“先降后升”模式

当训练周期延长至 8 个 epoch 时,情况发生了实质性变化。

研究观察到一种显著的“先降后升”(Dip-and-Recovery)动态模式:在训练早期,分布外任务的性能出现下滑;随着训练推进,性能逐步回升并最终超越基模型,然后继续上升。

这一现象在 Qwen3 系列、InternLM2.5-20B 等多个模型上均得到验证。

2.3 回复长度作为优化阶段的诊断指标

进一步分析发现,模型输出的回复长度与性能变化存在高度关联。训练初期,回复长度急剧增长,恰与性能低谷期重合;随着训练深入,回复长度逐渐回落趋于精炼,同时跨领域性能开始恢复。

研究者对此的解释是:在长思维链 SFT 的早期阶段,模型首先捕获的是数据中“冗长输出”这一表面特征,尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。

随着优化的深入,模型逐步内化了可迁移的程序化推理模式,输出变得更加精练有效。

因此,回复长度可作为优化进程的粗粒度诊断指标:若输出仍在持续缩短,往往表明优化尚未充分完成

2.4 重复曝光优于单次遍历

在控制总梯度更新步数(640 步)的对比实验中,研究发现“2.5k 数据训练 8 轮”的效果全面优于“20k 数据训练 1 轮”。

这表明,在同等计算预算下,对少量长思维链数据进行多轮重复学习,比单轮遍历大规模数据更有利于推理模式的内化。

三、发现二:数据质量与结构是泛化的关键变量 3.1 低质量数据的负面影响

研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答,质量参差不齐(比如包含大量跳步)且缺乏长思维链结构。

实验结果显示,使用此类低质量数据进行训练,不仅对同领域数学任务的提升有限,更导致分布外泛化能力的显著下降,且在整个训练过程中未能触发“先降后升”的恢复机制。

3.2 程序化推理模式的迁移:Countdown实验

为区分“领域知识学习”与“推理模式学习”的贡献,研究团队设计了一组关键实验,使用 Countdown 数据集进行训练。

Countdown 是一个简单的算术凑数游戏,仅涉及基础四则运算,不包含任何高等数学知识,但其解题过程蕴含完整的"尝试-发现错误-回溯-验证"结构。

实验结果表明,仅在 Countdown 数据上进行微调的模型,不仅在 AIME24 等竞赛级数学评测上取得显著提升,在代码生成、科学推理等完全不相关的领域也展现出泛化能力。

这一发现有力地说明:SFT 泛化的核心驱动力并不一定是特定领域知识的记忆,而可能是隐藏于长思维链中的程序化推理模式(如分解、回溯、验证)的学习与迁移

四、发现三:模型基础能力决定泛化上限 4.1 不同规模模型的对比实验

在严格控制数据与训练配置的条件下,研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现:14B模型完整经历“先降后升”过程,最终在多个跨领域任务上获得全面提升,回复长度在训练后期迅速收敛至较低水平。

1.7B模型:在各项任务上增益极其有限,部分任务甚至出现负增长;回复长度在整个训练周期内始终维持在极高水平,未能有效收敛。

4.2 表层模仿与深层内化的差异

案例分析揭示了能力差异的具体表现:面对复杂数论问题时,1.7B 模型在耗尽大量 Token 后,仍陷入“Let me check 17,Let me check 53...”式的无效循环,本质上仅是对长思维链格式的表层统计模仿。

相比之下,词汇层面的对数概率分析显示,14B 模型在 SFT 过程中显著强化了对“therefore”、“alternatively”、“wait”、“however” 等推理转折词的预测能力,表明其真正习得了高层逻辑控制流,能够判断何时应回溯重算、何时应调整策略。

五、发现四:泛化的非对称性——推理增强与安全退化并存 5.1 安全性能的下降

研究揭示了一个值得关注的副作用:长思维链 SFT 在提升推理能力的同时,会导致模型安全性的显著下降。

在 HEx-PHI 安全基准测试中,经长思维链训练的模型面对有害指令时的攻击成功率(ASR)大幅上升。作为对照,使用无思维链数据训练的模型则安全性下降幅度较小。

5.2 自我合理化机制

案例分析表明,基模型原本会对有害请求直接输出简短拒绝。

但经过长思维链训练后,模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的,但如果假设是网络安全教育场景呢?”,从而绕过自身的安全机制,最终输出带有免责声明的有害内容。

研究者指出,这在某种意义上也是一种“泛化”:长思维链强化了模型“探索替代方案、克服障碍”的底层求解倾向,而在面对有害查询时,被克服的“障碍”恰恰是模型自身的安全策略。

六、结论

本研究系统表明,“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性,其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。

在任一条件缺失的情况下得出的 “SFT 不泛化”结论,可能是实验设定的产物而非 SFT 的内在局限。

对于大模型训练而言,本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化,而非孤立地评判某一训练范式的优劣。

Illustration From IconScout By IconScout Store

报名截止至5月31日(周日)20点,席位有限~

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确认了!新一轮国企改革方案正式下发,多地密集开会部署

确认了!新一轮国企改革方案正式下发,多地密集开会部署

证券时报
2026-05-31 23:12:05
一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

青苹果sht
2026-05-30 05:15:46
他汀药有7种,只有一种不影响血糖,早知道早收益!

他汀药有7种,只有一种不影响血糖,早知道早收益!

药师方健
2026-05-31 22:45:44
安赫尔-科雷亚无缘世界杯,妻子发文力挺:我一直都陪在你身边

安赫尔-科雷亚无缘世界杯,妻子发文力挺:我一直都陪在你身边

懂球帝
2026-06-01 05:15:05
多所高校撤销外语学院

多所高校撤销外语学院

第一财经资讯
2026-05-30 17:38:20
一夜烧光3.6亿!榛树导弹砸进自家阵地,普京遭遇年度最大闹剧?

一夜烧光3.6亿!榛树导弹砸进自家阵地,普京遭遇年度最大闹剧?

安珈使者啊
2026-06-01 09:29:39
形势有多严峻?网传现在男生都不追女生了…

形势有多严峻?网传现在男生都不追女生了…

慧翔百科
2026-06-01 08:43:22
6月1日重启,新天涯社区将发售9999份创世成员服务包,售价1999元,“众筹”总额近2000万元,用于数据存续、恢复访问等

6月1日重启,新天涯社区将发售9999份创世成员服务包,售价1999元,“众筹”总额近2000万元,用于数据存续、恢复访问等

台州交通广播
2026-06-01 06:39:42
长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

马拉松跑步健身
2026-05-29 21:25:54
被北航投诉了,可能封号,因为写了耿同学的博士老师

被北航投诉了,可能封号,因为写了耿同学的博士老师

小小河
2026-05-30 22:21:44
35死40伤!以色列发起斩首行动,美军连夜参战,普京:伊朗或上当

35死40伤!以色列发起斩首行动,美军连夜参战,普京:伊朗或上当

纪中百大事
2026-06-01 09:44:28
55岁汪峰给所有男人提了个醒:可以老、可以胖,但穿衣打扮要注意

55岁汪峰给所有男人提了个醒:可以老、可以胖,但穿衣打扮要注意

寻墨阁
2026-05-31 12:49:15
驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

贱议你读史
2026-05-31 16:19:12
一张照片看哭无数人:你看到的,不一定是真相

一张照片看哭无数人:你看到的,不一定是真相

有态度网友ytd2993
2026-05-30 01:06:26
从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

从弃将到近亿元先生!阿根廷天才2年身价暴涨13倍 皇马回购赚翻了

万花筒体育球球
2026-05-31 17:03:36
停止销售!胖东来致歉:重大失误

停止销售!胖东来致歉:重大失误

申消费
2026-06-01 10:06:25
大姑姐借我价值220万钻石项链去赴宴,我提前换仿品,她焦急来电

大姑姐借我价值220万钻石项链去赴宴,我提前换仿品,她焦急来电

徐侠客有话说
2026-05-25 11:51:24
这才是毛主席一家人最全的一张合影,都是真人的容貌 不是演员扮演

这才是毛主席一家人最全的一张合影,都是真人的容貌 不是演员扮演

草莓解说体育
2026-05-31 22:11:53
升级!搬迁!征收!北京这些片区传来重大消息——

升级!搬迁!征收!北京这些片区传来重大消息——

靓仔情感
2026-06-01 06:34:52
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
2026-06-01 11:48:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2397文章数 596关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

旅游
房产
手机
艺术
教育

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

手机要闻

肖战同款4K实况神机 荣耀600元气版开售在即

艺术要闻

吴镇写竹,清清爽爽

教育要闻

打印准考证!2026山东高考|准考证打印全流程(含时间 + 入口 + 问题解答)

无障碍浏览 进入关怀版