大模型智能|分享
来源 | 知乎
作者 | Thomas
大型语言模型的Post-Training,长期以来被一道清晰的界线划分为两大范式:以模仿为核心的监督微调(SFT)与以探索为驱动的强化学习(RL)。
然而,清华团队一项开创性的研究表明,这道界线或许并非不可逾越。本文旨在对该研究的核心技术进行拆解,阐述其如何从理论上统一SFT与RL,并最终催生出一种高效的自适应算法——Hybrid Post-Training(HPT)。
该理论的基石在于提出了一个共同目标函数 (Common Objective Function) 作为统一的优化目标,将SFT与RL的诉求囊括其中。
此函数旨在最大化模型参数 θ 的效用。其第一项 是RL的期望奖励目标,驱动模型探索以获得更高回报。第二项 是SFT的隐含目标,通过最小化模型策略 与专家策略 之间的KL散度,来约束模型模仿专家行为。 则负责平衡这两个目标。该公式表明,所有后训练本质上都是在最大化奖励与最小化策略偏离之间进行权衡。
基于统一的优化目标,其梯度更新规则也应能被统一表达。论文的核心理论贡献在于推导出了统一策略梯度估计器 (Unified Policy Gradient Estimator, UPGE) 这一核心框架。
此公式将梯度计算分解为四个可互换的模块化组件,不同的后训练算法可视为该框架在组件选择上的不同实例化。
• 优势估计 (Advantage Estimate) , : 这是驱动策略更新的核心信号。在SFT中,专家数据被视为最优,其优势可被定为 。而在RL算法(如GRPO)中,则通常使用归一化奖励 来计算优势,以降低方差。
• 参考策略 (Reference Policy) , : 此项作为重要性采样的分母,对梯度进行重加权。在SFT的理论推导中,它对应于专家策略 。在RL的PPO算法中,为了保证更新的稳定性,它通常是在线采样时所使用的旧策略 。
• 稳定掩码 (Stabilization Mask) , : 这是一个二进制掩码,充当安全机制。在策略更新可能导致不稳定时(如PPO的裁剪),它会禁用特定样本的梯度。
• 似然梯度 (Likelihood Gradient) , : 这是策略 对模型参数 θ 的梯度,是所有基于策略梯度的算法所共享的组件,负责将优势信号反向传播至模型。
基于UPGE的理论洞见,研究者设计了混合后训练 (Hybrid Post-Training, HPT) 算法,其核心是一种基于模型实时性能的动态训练策略。
HPT通过在线采样评估模型在当前任务上的性能 P,并根据预设阈值 动态调整SFT与RL损失的权重 和 。性能反馈与系数切换
是模型在 次 on-policy rollouts 上的平均成功率。此机制实现了在模型能力不足时,强制其从专家数据中学习(Exploitation);在模型具备一定能力后,鼓励其进行探索(Exploration)。
HPT的最终优化目标是一个由 和 控制的加权混合损失。混合损失函数:
是标准的负对数似然损失,而 通常是PPO或其变体的裁剪代理目标。由于 的二进制特性,在每个训练步骤中,模型仅优化两种损失之一,从而实现了一种清晰、高效的“硬切换”训练范式。
这项研究重塑了后训练的认知框架,消除了模仿(SFT)与探索(RL)之间的绝对壁垒,代之以一个统一且自适应的理论。HPT算法正是这一理论 unification 的直接产物。最优的训练策略并非静态的选择,而是对模型能力演进的动态响应。
参考论文 https://doi.org/10.48550/arXiv.2509.04419
Github https://github.com/TsinghuaC3I/Unify-Post-Training
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.