清华与腾讯破解AI训练难题：让大模型学会"择优而从"全新训练法|算法|向量|信号|梯度|实验|ai训练|知名企业

分享至

这项由清华大学自动化系与腾讯大模型部门联合开展的研究，以预印本形式发布于2026年5月7日，论文编号为arXiv:2605.06139，题为《Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex》。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

近年来，大语言模型（比如各种AI聊天助手）的能力突飞猛进，背后的一个关键秘诀就是"用可验证的奖励来做强化学习训练"——业内简称RLVR。说白了，就是让AI模型反复尝试解题，答对了给奖励，答错了不给，然后根据这些奖励信号调整模型内部的参数，让它越来越擅长推理和解题。这种方法已经成为训练顶尖推理型AI的标配流程。

然而，一个根本性的问题一直隐藏在水面之下：主流的训练算法，比如广泛使用的GRPO（Group Relative Policy Optimization，群体相对策略优化），究竟在"做什么"？它们的内部数学逻辑是否是最优的？这项研究的出发点，正是要撕开这层包装，看清楚里面的真实机制，然后问一个更进一步的问题：既然我们知道了它在做什么，能不能做得更好？

研究团队给出的答案是肯定的，他们提出了一种名为**列表式策略优化（Listwise Policy Optimization，简称LPO）**的新方法，在多种推理任务和多种规模的AI模型上，都取得了比主流基准方法更好的训练效果，同时训练过程更稳定，生成答案的多样性也得到了更好的保护。

一、现有训练方法的核心逻辑：群体打分，相对比较

要理解这项研究的突破，先得搞清楚现有的训练方法是怎么运作的。以GRPO为代表的主流方法，核心操作是这样的：给AI模型一道题，让它一口气生成一组答案（比如8个），然后用一个验证器（比如数学题的标准答案）给每个答案打分，区分出哪些答对了、哪些答错了，接着计算出每个答案相对于这组答案平均水平的"优势分数"（Advantage），最后根据这些优势分数来调整模型参数，让模型更倾向于产生高分答案。

不同的算法变体，主要区别在于怎么计算这个"优势分数"。有的算法（如GRPO）会把每个答案的奖励减去这组答案的平均奖励再除以标准差；有的算法（如Dr.GRPO）只减去平均奖励；有的算法（如MaxRL）则用平均奖励来做除数。这些差异看起来像是调味料的细微区别，但它们产生的效果其实大相径庭。

研究团队花了大量精力来分析这些做法的本质，发现了一个隐藏在所有这些算法背后的统一数学结构。

二、解密隐藏的几何结构：所有主流算法都在做同一件事

研究团队引入了一个新的视角：**列表式分布（Listwise Distribution）**。简单来说，对于一道题生成的那一组答案，可以用一个概率向量来表示当前模型对这组答案的"偏好程度"——每个答案被赋予一个概率值，所有概率加起来等于1。这个概率向量就躺在一个数学空间里，叫做"响应单纯形"（Response Simplex）。

这个概念类似于一个赛马赌注分配表。假设有8匹马参赛，你根据当前判断给每匹马分配了一定比例的赌注，这8个比例加起来恰好是100%，这就构成了一个"分配向量"，对应数学上的概率单纯形。

在这个框架下，研究团队通过严谨的数学推导发现：**现有的所有主流群体式策略梯度算法，都在隐含地做同一件事**——它们首先根据每个答案的奖励，构建出一个"目标分布"（Target Distribution），这个分布是奖励的softmax函数，奖励越高的答案被赋予越高的概率；然后，通过标准的梯度更新，把当前模型的偏好分布往这个目标分布方向拉拢。

更具体地说，不同算法的"优势分数"公式，本质上都在隐含地定义一个目标分布，其形式是`softmax(R/τ)`，其中R是各答案的奖励，τ是一个"温度"参数，控制这个目标分布有多"尖锐"或"平滑"。GRPO的τ等于这组答案奖励的标准差，Dr.GRPO的τ接近1，MaxRL的τ等于这组答案的平均奖励。本质上，不同算法的区别主要体现在这个温度参数τ的不同，而不是根本逻辑的不同。

研究团队进一步证明，标准的策略梯度更新，在数学上等价于在当前策略处对"反向KL散度最小化"做一阶近似。换句话说，现有算法并不是在精确地执行某个最优操作，而是对一个更理想操作的**粗略近似**，并且这个近似只在模型恰好处于"当前正在采样的状态"时才是精确的——一旦模型经过几轮更新偏离了采样时的状态，近似误差就会越来越大，训练的效果就会打折扣。

三、为何精确比近似更好：从"大概往那边走"到"精准瞄准目标"

现有算法的这种近似性带来一个实际问题：随着训练迭代，模型参数逐渐更新，每次更新结束时的模型与最初采样时的模型之间产生了"偏移"（off-policy drift）。研究团队通过数学推导量化了这个近似误差，发现误差与"偏移程度"成正比——模型偏离采样分布越远，梯度方向的误差越大，训练信号就越不准确。

这就像导航。现有算法相当于在出发前看了一眼地图，然后凭记忆往大致方向走，走的时间越长，偏差越大。而LPO要做的，是在每一步都精准计算当前位置到目标的方向，始终保持准确。

研究团队的方案是：既然目标分布和当前的模型分布都可以精确计算出来（因为只有有限的K个采样答案），为什么不直接精确地执行投影操作，而要满足于粗糙的近似呢？

这个洞察是LPO的核心出发点。在有限的答案集合上，数学上困难的积分变成了有限求和，一切都可以精确计算，不再需要任何近似。

四、LPO的两步舞：先定目标，再精准投影

LPO将每轮训练迭代分解为两个清晰分离的步骤，就像做菜时"先确认要做什么菜，再按照食谱执行"一样逻辑分明。

第一步是**构建目标分布**。研究团队为每道题定义了一个局部代理优化目标：在当前这组采样答案上，找到一个概率分布，使得期望奖励最大，同时不要距离当前模型的分布太远（这是信任区域约束）。这个优化问题有解析解，即"列表式Gibbs目标"，其数学形式为`softmax(R/τ + s_t)`，其中s_t是当前模型对每个答案的对数偏好比值。在当前模型与采样模型相同的理想情况下，这个目标退化为`softmax(R/τ)`，与现有算法的隐含目标完全吻合。

这一步的理论意义在于，τ不再是某种归一化副产品，而是一个有明确含义的**信任区域参数**：τ越小，目标分布越尖锐，越集中于奖励最高的答案；τ越大，目标分布越平滑，越接近当前模型的分布，允许更大的探索空间。

第二步是**精确执行投影**。有了目标分布w*和当前模型在答案集合上的列表式分布P_θ，接下来就是最小化两者之间的"距离"，让模型参数往目标方向精确靠拢。这个投影操作可以选用不同的"距离度量"，研究团队实现了两种：前向KL散度（Forward KL）和反向KL散度（Reverse KL）。

前向KL版本（LPO_fwd）的梯度系数是`P_{θ,k} - w*_k`，即当前模型对第k个答案的概率与目标概率之差。反向KL版本（LPO_rev）的梯度系数是`P_{θ,k} × (d_k - d)`，其中d_k是当前模型logit与目标logit的差值，d是加权平均差值。

五、精确投影带来的数学礼物：三个天然优良性质

精确地在响应单纯形上执行投影操作，带来了几个非常优良的数学性质，这些性质是现有近似方法所不具备的。

研究团队证明，前向KL版本的梯度系数c_k满足三条精良性质。首先是**有界性**：每个系数的绝对值不超过1，这意味着梯度更新的幅度被天然限制在一个范围内，不会出现梯度爆炸。其次是**零和性**：所有系数加起来恰好等于0，这意味着提升某些答案概率的同时，必然压低其他答案的概率，形成一种自动平衡。这个零和性质等价于策略梯度中的"控制变量"技巧，能有效降低梯度方差，让训练更稳定。第三是**自校正性**：当当前模型的分布P_θ趋近于目标分布w*时，所有梯度系数自然趋向于0，训练自然收敛，不需要额外的停止条件。

更重要的是，研究团队证明了LPO具有**单调改进保证**：只要投影步骤执行得足够准确，每轮迭代后模型在这组答案上的期望奖励一定不会降低，且严格改进的条件是当前分布与目标分布不相同。这个理论保证给算法奠定了坚实的数学基础，而现有算法并没有类似的保证。

此外，研究团队还证明了前向KL的**模式覆盖性**：如果目标分布给某个答案赋予了足够高的概率，那么投影后的模型分布对这个答案的概率也有一个可量化的正下界。这意味着前向KL版本会主动保护所有高价值答案的可能性，防止模型过度集中到单一答案而忽略其他有效解法。

六、反向KL的特殊性质：隐含的熵正则化

反向KL版本（LPO_rev）有一个特别有趣的等价性。研究团队证明，最小化反向KL散度`D_KL(P_θ || w*)`等价于最大化代理目标`J(P_θ)`，而这个目标可以分解为`H(P_θ) + Σ_k P_{θ,k} × φ_k`，其中H(P_θ)是当前列表式分布的熵值，φ_k是目标logit。

这意味着LPO_rev的训练目标自然地包含了一个**熵奖励项**，鼓励模型在答案集合上保持多样性，防止过度集中。这与最大熵强化学习的精神完全一致，但在LPO框架下是从几何结构中自然涌现的，而非人为添加的额外项。

反向KL版本还有一个完美的理论连接：在"当前模型恰好等于采样模型"的在线情况下，LPO_rev的梯度与标准策略梯度（即现有GRPO类算法）的梯度完全一致。这个等价性提供了一个重要的自洽检验，同时也解释了为什么实验中在完全在线的训练设置下，LPO_rev的曲线与GRPO几乎重合。

七、实验验证：四种推理任务，多个模型家族的全面测试

研究团队在四类代表性推理任务上对LPO进行了系统评测，涵盖了逻辑推理、数学推理、编程和多模态几何推理。

在逻辑推理方面，他们使用了"倒计时数字游戏"——给定几个数字和基本算术运算，组合出目标值。训练数据取自Countdown-34数据集的2000道题，用Qwen3-4B-Base模型以及DeepSeek、Llama、Mistral等不同家族的模型进行实验。

在数学推理方面，他们在包含7500道数学竞赛题的MATH数据集上分别训练Qwen3-1.7B-Base和Qwen3-8B-Base模型，并在AIME24、AIME25、AMC23、MATH500、Minerva Math和OlympiadBench等多个权威评测基准上进行评估。此外，还将Qwen3-14B-Base模型在更大规模的Polaris数据集（约5.3万道题）上进行了可扩展性验证。

在编程任务方面，他们使用PRIME代码数据集的2.53万道编程竞赛题训练Qwen3-1.7B-Base模型，并在1000道保留的验证题上评估。

在几何推理方面，使用需要理解几何图形的Geometry3k数据集训练Qwen2.5-VL-3B-Instruct多模态模型。

实验对比的基准算法是GRPO、Dr.GRPO和MaxRL三种代表性方法。为了保证比较的公平性，研究团队特意让LPO的两个变体（LPO_fwd和LPO_rev）使用与对应基准算法完全相同的温度参数τ，确保任何性能差异都来自"精确投影"本身，而非温度调节。

八、实验结果：更准、更稳、更多样

训练效果上，LPO在配对温度设置下一致优于对应的基准算法。在Pass@1精度（每次采样的平均正确率）方面，LPO_fwd在15个实验设置中有13个优于基准，LPO_rev同样有13个优于基准。在Pass@k精度（多次采样中至少一次答对的概率）方面，LPO_fwd在15个设置中全部15个优于基准，LPO_rev有11个优于基准。这些一致性的提升表明，用精确的列表式投影替代一阶近似，确实是一个普遍有效的改进。

在可扩展性验证中，用Qwen3-14B-Base在Polaris大数据集上的实验显示，LPO_fwd仅需70步就能达到GRPO训练200步才能达到的峰值水平，展现出显著更高的样本效率。

在训练动态方面，实验记录了三个关键指标的变化曲线：答案熵（衡量模型输出多样性）、梯度范数（衡量参数更新幅度）和答案长度。

答案熵方面，LPO的两个变体始终保持比基准更高的熵值，说明LPO能有效防止模型"答案多样性坍塌"——即模型越训越僵化、只会用一种套路解题的问题。LPO_rev对应最大熵目标，LPO_fwd体现模式覆盖特性，两者都有助于维持探索的多样性，这也直接解释了为什么Pass@k改进尤为突出。

梯度范数方面，LPO变体展示出更低、更平稳的梯度范数，与理论预测完全吻合——精确投影赋予的有界性和零和性确实带来了更稳定的优化过程。

答案长度方面，LPO趋向于生成更长的答案，这通常意味着更详细的推理链条，与LPO鼓励更广泛探索的特性相符。LPO_fwd生成的答案尤其长，与其模式覆盖性质一致。

九、关键消融实验：列表式投影的核心作用

为了验证"精确列表式投影"本身（而非目标设计）才是性能提升的关键，研究团队做了一个重要的消融实验：保持目标分布w*不变，但把列表式投影替换为传统的**逐点投影**（Pointwise Projection）。逐点投影的做法来自经典强化学习算法MPO和AWR，其目标函数是`-Σ_k w*_k × log π_θ(y_k|x)`，每个答案独立处理，没有跨答案的耦合关系。

实验结果表明，这个逐点变体出现了严重的性能下降，Pass@1准确率明显低于GRPO和LPO。原因在于：逐点投影的梯度系数是常数（等于负的目标概率），没有零和性，没有自校正性，更没有跨答案的竞争机制，导致训练不稳定。这个对比实验清楚地说明，性能增益不仅仅来自"目标设计得好"，更来自"列表式投影本身的结构性优良性质"。

研究团队还专门分析了为什么逐点投影会失败：数学上，逐点目标实际上是在计算目标分布和模型分布之间的交叉熵，而模型分布在这里不是关于答案集合的归一化分布，而是独立的逐点密度。这种不对称性使得梯度无法自然平衡，产生不稳定的持续性拉力。

十、组大小的影响：小组也能稳定训练

研究团队还测试了每道题采样不同数量答案（K=2、4、8、16、32）对LPO效果的影响。结果显示，在所有测试的组大小下，LPO变体都能与GRPO保持竞争力甚至更优，在小组大小（如K=2、4）时优势尤为明显。这表明精确列表式投影在样本有限的情况下能更有效地利用每个答案的信息。

两个变体在扩展特性上呈现出有趣的分化：LPO_rev在提升Pass@1方面更强（因为反向KL有模式搜索性质，倾向于集中于高奖励答案），而LPO_fwd在提升Pass@k方面更突出（因为前向KL的模式覆盖性使得模型保持了更广泛的有效解法分布）。这与理论预测完美吻合。

十一、跨模型家族的泛化性和更多分析

为了验证LPO不是对某种特定模型架构的"过拟合"，研究团队在Qwen、DeepSeek、Mistral和Llama四个不同家族的模型上都进行了Countdown任务的实验，涵盖了预训练基础模型、蒸馏模型和指令微调模型等不同训练范式。结果一致显示，无论底层模型是什么，LPO都能带来稳定的性能提升，特别是在Pass@64评估中优势尤为明显。

在数学推理的详细评测中（见原文Table 3），LPO在MATH500、OlympiadBench、AMC23、AIME24、AIME25等多个基准上都展现出一致的提升，无论是平均Pass@1还是Pass@k指标都有改善。在分布外（OOD）泛化实验中，用MATH数据集训练的模型在MMLU-Pro、ARC-c和GPQA-diamond等完全不同领域的任务上进行评测，LPO变体的总体平均表现也有一定提升，不过研究团队坦承OOD评测本身存在较大方差，多领域联合训练可能是未来改进方向。

十二、完全在线设置下的理论验证

研究团队还专门做了一个"完全在线"设置的实验：每轮训练只做一次梯度更新（而非两次），确保模型不会偏离采样时的状态。在这个理想设置下，理论预测LPO_rev应该与GRPO完全等价。实验结果与理论预测高度吻合，LPO_rev和GRPO的训练曲线几乎重叠。这个实验既验证了理论推导的正确性，又说明LPO_rev的额外收益主要来自它在多步更新下对精确投影的更好维持。

在完全在线设置下，LPO_fwd则表现出不同于GRPO的独特行为：早期训练阶段样本效率更高，最终Pass@k准确率也更优，这与它特有的模式覆盖性质完全一致。

说到底，这项研究做的事情可以用一句话概括：把大家都在用但没人说清楚的训练方法的内部逻辑解剖清楚，然后基于这个理解造了一个更精准的工具。就好比大家都知道往右边开车能到目的地，这个研究不仅解释清楚了"为什么往右边"，还造了一个更精准的方向盘，让你不再是大致向右、而是精确瞄准目标。

LPO的实际价值不只是在实验数字上改进几个百分点，更在于它提供了一个**解耦的设计框架**：目标分布的构建和投影方式的选择被分离开来，各自可以独立优化和扩展。这意味着未来的研究者可以在LPO框架下灵活地尝试不同的投影散度（比如Jensen-Shannon散度，或者完全自定义的距离度量），探索更多样的优化几何，这是现有算法的隐式近似框架所无法提供的灵活性。

当然，研究团队也坦诚地指出了当前工作的局限：LPO目前聚焦于序列级别的投影和结果奖励设置，未来可以探索步骤级别的列表式投影（比如在多步推理链的中间状态也执行投影），以及在人类反馈强化学习（RLHF）等更广泛的训练场景中的应用。

对于关心AI发展的普通读者来说，这项研究提示了一个更大的道理：训练AI模型不仅仅是"给奖励就行"，训练方法本身的数学精确性至关重要。更精准的训练信号意味着同样的计算资源能产出更强的模型，或者同样强度的模型需要更少的训练资源。在AI算力成本居高不下的当下，这种效率提升有着实实在在的价值。有兴趣深入了解的读者可以通过arXiv编号2605.06139查阅完整论文，论文包含详细的数学推导、实验设置说明和所有代码实现细节。

Q&A

Q1：LPO与GRPO的主要区别是什么？

A：GRPO通过优势分数计算策略梯度，本质上是对"反向KL散度最小化"的一阶近似，在模型偏离采样状态后近似误差会逐渐变大。LPO则直接在采样答案集合上精确构建目标分布，并通过精确的散度最小化来更新模型参数，不依赖近似。这种精确投影带来了有界梯度、零和更新和自校正收敛等天然优良性质，使训练更稳定、效果更好。

Q2：LPO中的前向KL和反向KL有什么不同的实际效果？

A：两者在实验中表现出互补特性。反向KL版本（LPO_rev）更擅长提升Pass@1，即每次采样的平均正确率，因为它有模式搜索性质，倾向于集中于高奖励答案。前向KL版本（LPO_fwd）则在Pass@k方面更突出，因为它具备模式覆盖性，能保护所有高价值解法的可能性，维持更广泛的答案多样性，防止模型过度集中于单一套路。

Q3：LPO训练方法对不同规模和类型的大模型都有效吗？

A：研究团队在1.5B到14B参数规模的模型上，以及Qwen、DeepSeek、Mistral、Llama四个不同家族的模型上进行了测试，覆盖基础预训练模型、蒸馏模型和指令微调模型。实验结果一致显示LPO都能带来稳定的性能改善，表明LPO不依赖特定模型架构，具有良好的通用性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.