网易首页 > 网易号 > 正文 申请入驻

清华最新研究!如何从理论上统一SFT与RL,以及高效的自适应算法HybridPost-Training

0
分享至

大模型智能|分享

来源 | 知乎

作者 | Thomas

大型语言模型的Post-Training,长期以来被一道清晰的界线划分为两大范式:以模仿为核心的监督微调(SFT)与以探索为驱动的强化学习(RL)。

然而,清华团队一项开创性的研究表明,这道界线或许并非不可逾越。本文旨在对该研究的核心技术进行拆解,阐述其如何从理论上统一SFT与RL,并最终催生出一种高效的自适应算法——Hybrid Post-Training(HPT)

该理论的基石在于提出了一个共同目标函数 (Common Objective Function) 作为统一的优化目标,将SFT与RL的诉求囊括其中。

此函数旨在最大化模型参数 θ 的效用。其第一项 是RL的期望奖励目标,驱动模型探索以获得更高回报。第二项 是SFT的隐含目标,通过最小化模型策略 与专家策略 之间的KL散度,来约束模型模仿专家行为。 则负责平衡这两个目标。该公式表明,所有后训练本质上都是在最大化奖励与最小化策略偏离之间进行权衡。

基于统一的优化目标,其梯度更新规则也应能被统一表达。论文的核心理论贡献在于推导出了统一策略梯度估计器 (Unified Policy Gradient Estimator, UPGE) 这一核心框架。

此公式将梯度计算分解为四个可互换的模块化组件,不同的后训练算法可视为该框架在组件选择上的不同实例化。

  • 优势估计 (Advantage Estimate) , : 这是驱动策略更新的核心信号。在SFT中,专家数据被视为最优,其优势可被定为 。而在RL算法(如GRPO)中,则通常使用归一化奖励 来计算优势,以降低方差。

  • 参考策略 (Reference Policy) , : 此项作为重要性采样的分母,对梯度进行重加权。在SFT的理论推导中,它对应于专家策略 。在RL的PPO算法中,为了保证更新的稳定性,它通常是在线采样时所使用的旧策略 。

  • 稳定掩码 (Stabilization Mask) , : 这是一个二进制掩码,充当安全机制。在策略更新可能导致不稳定时(如PPO的裁剪),它会禁用特定样本的梯度。

  • 似然梯度 (Likelihood Gradient) , : 这是策略 对模型参数 θ 的梯度,是所有基于策略梯度的算法所共享的组件,负责将优势信号反向传播至模型。

基于UPGE的理论洞见,研究者设计了混合后训练 (Hybrid Post-Training, HPT) 算法,其核心是一种基于模型实时性能的动态训练策略。

HPT通过在线采样评估模型在当前任务上的性能 P,并根据预设阈值 动态调整SFT与RL损失的权重 和 。性能反馈与系数切换

是模型在 次 on-policy rollouts 上的平均成功率。此机制实现了在模型能力不足时,强制其从专家数据中学习(Exploitation);在模型具备一定能力后,鼓励其进行探索(Exploration)。

HPT的最终优化目标是一个由 和 控制的加权混合损失。混合损失函数:

是标准的负对数似然损失,而 通常是PPO或其变体的裁剪代理目标。由于 的二进制特性,在每个训练步骤中,模型仅优化两种损失之一,从而实现了一种清晰、高效的“硬切换”训练范式。

这项研究重塑了后训练的认知框架,消除了模仿(SFT)与探索(RL)之间的绝对壁垒,代之以一个统一且自适应的理论。HPT算法正是这一理论 unification 的直接产物。最优的训练策略并非静态的选择,而是对模型能力演进的动态响应。

参考论文 https://doi.org/10.48550/arXiv.2509.04419
Github https://github.com/TsinghuaC3I/Unify-Post-Training

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耻辱的2-4!皇马掉链子无缘直通 从第3跌第9 附加赛过关或遇曼城

耻辱的2-4!皇马掉链子无缘直通 从第3跌第9 附加赛过关或遇曼城

我爱英超
2026-01-29 07:14:49
央视曝光“毒红薯”流向多地,你以为安全的根茎类食物真安全吗?

央视曝光“毒红薯”流向多地,你以为安全的根茎类食物真安全吗?

村里的月光
2026-01-29 08:34:34
为何要向辽宁队辞职?杨鸣亲自进行了解答

为何要向辽宁队辞职?杨鸣亲自进行了解答

体育哲人
2026-01-29 19:10:16
具俊晔把大S遗产转给两个娃,完成大S雕像落成仪式,马上回韩国

具俊晔把大S遗产转给两个娃,完成大S雕像落成仪式,马上回韩国

独舞独舞
2026-01-29 19:32:09
“妖股”直击:蓝色光标自2025年10月30日启动以来累计上行幅度可观,All in AI+出海营销构筑增长优势

“妖股”直击:蓝色光标自2025年10月30日启动以来累计上行幅度可观,All in AI+出海营销构筑增长优势

金融界
2026-01-29 13:54:23
仅此1人 38岁前国脚2次入禁足名单 从5年到终身 曾获赞“小梅西”

仅此1人 38岁前国脚2次入禁足名单 从5年到终身 曾获赞“小梅西”

我爱英超
2026-01-29 18:29:20
古巴多地停水停电停煤气,食物严重短缺

古巴多地停水停电停煤气,食物严重短缺

昊轩看世界
2026-01-28 15:45:10
上海延长《关于本市开展对部分个人住房征收房产税试点若干问题的通知》有效期至2031年1月27日

上海延长《关于本市开展对部分个人住房征收房产税试点若干问题的通知》有效期至2031年1月27日

观点机构
2026-01-29 15:11:13
明天北京大部地区有雪!出行注意——

明天北京大部地区有雪!出行注意——

BRTV新闻
2026-01-29 16:20:09
美国召集西半球33国防长开会:整合主导西半球军力、颠覆古巴

美国召集西半球33国防长开会:整合主导西半球军力、颠覆古巴

邵旭峰域
2026-01-27 11:24:44
中国反制后,民意暴跌的高市当众落泪,关键时刻,金正恩也亮剑了

中国反制后,民意暴跌的高市当众落泪,关键时刻,金正恩也亮剑了

古史青云啊
2026-01-29 19:35:52
中国足坛最神奇的一天:处罚公布后,4大戏剧性场面实属罕见!

中国足坛最神奇的一天:处罚公布后,4大戏剧性场面实属罕见!

邱泽云
2026-01-29 17:04:46
逐帧分析美国ICE当街杀人,这就是为什么军人不能当警察用

逐帧分析美国ICE当街杀人,这就是为什么军人不能当警察用

江平舟
2026-01-28 12:26:03
只愿执教争冠球队?杨鸣新岗位曝光,年薪或高达8位数!

只愿执教争冠球队?杨鸣新岗位曝光,年薪或高达8位数!

绯雨儿
2026-01-29 13:44:05
北京这一夜,被珠圆玉润的奚梦瑶惊艳,胖了一圈秒了干瘪的超模

北京这一夜,被珠圆玉润的奚梦瑶惊艳,胖了一圈秒了干瘪的超模

泪满过眼
2026-01-27 19:06:23
吉林省副省长杨安娣任吉林省政协副主席

吉林省副省长杨安娣任吉林省政协副主席

澎湃新闻
2026-01-29 19:33:09
广州地铁下周一进入春运模式,除夕夜全线网迟收1.5小时

广州地铁下周一进入春运模式,除夕夜全线网迟收1.5小时

极目新闻
2026-01-29 20:01:19
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
乌克兰击落价值3500万美元的俄Su-34战斗机

乌克兰击落价值3500万美元的俄Su-34战斗机

桂系007
2026-01-29 13:00:04
从30胜13负,到字母哥申请交易!说里弗斯亲手毁了雄鹿一点不为过

从30胜13负,到字母哥申请交易!说里弗斯亲手毁了雄鹿一点不为过

移动挡拆
2026-01-29 08:53:30
2026-01-29 20:43:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5331文章数 64599关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

关键时刻伊朗接收俄罗斯装备 中国代表就局势发出警告

头条要闻

关键时刻伊朗接收俄罗斯装备 中国代表就局势发出警告

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

时尚
健康
本地
公开课
军事航空

皮衣+裙子、大衣+运动鞋,这4组搭配照着穿就很时髦!

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版