南方科技大学等机构联手破解AI推理训练难题|数学|实验|逻辑推理|ai推理训练

分享至

这项由南方科技大学、北京邮电大学、微软亚洲研究院、上海财经大学、清华大学及INFLY TECH联合开展的研究，以预印本形式于2026年4月发布，论文编号为arXiv:2604.08865。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。

**当AI做数学题，"打分员"却失灵了**

假设你正在教一个学生做数学题，你的评分方式是：等他把整道题全部写完，才告诉他"对"或"错"。问题来了——学生写了满满两页纸的推理过程，最终答案错了，但你只能说一句"不对"。这位学生要怎么知道是第三行开始走偏，还是最后一步算术出错？你的反馈几乎帮不上什么忙。

这正是目前大型语言模型（简称大模型，也就是ChatGPT、DeepSeek这类AI）在学习复杂推理时面临的真实困境。研究人员发现，让AI学会解数学题、做逻辑推理，需要用到一种叫做"强化学习"的训练方法——本质上就是让AI不断尝试、不断根据反馈调整。但现有主流训练方法存在根本性的缺陷，而这篇论文提出的新方法，正是为了彻底解决这个问题。

**一、训练AI推理，为什么这么难**

要理解这项研究的价值，得先弄清楚AI推理训练的现状。

目前让大模型学会解题，主流方法叫做PPO（近端策略优化）。你可以把它理解成一种"步步打分"的训练机制。AI每生成一个词，系统就有一个"打分员"（技术上称为Critic，批评家）在旁边估算：按照现在这个走势，最终能答对的概率是多少？然后根据这个概率，奖励或惩罚刚才的每一步操作。

听起来很合理，但问题出在AI推理的特殊性上。当AI解一道数学题时，它可能需要连续输出几千个字的推理过程——这就像一篇很长的侦探调查报告。而最终的反馈只有一个："答案正确"或"答案错误"。打分员必须把这个唯一的结果，沿着几千步的推理链条，一路往回分配功劳或责任。

研究团队通过实验直接观察了这个"打分员"的行为，结果令人震惊。他们发现，打分员实际上是在偷懒——它根本不关心AI在推理过程中的第三步、第五步、第二十步在做什么，而是一直等到推理接近尾声，才突然"清醒过来"，根据最后几行文字的语义特征猜测答案是否正确。这就好比一个判卷老师，全程不看解题过程，只盯着最后一行看，凭"感觉"打分。

这种现象被研究团队命名为"尾部效应"（Tail Effect）。它带来了两个直接后果：对于答对的推理链，打分员在接近结尾时才给出高分，导致AI的整个推理过程几乎收不到任何有效的激励信号；对于答错的推理链，打分员在中间过程中也没有给出足够的惩罚，无法让AI知道哪里出了问题。如此一来，标准PPO训练出的AI，往往不仅没有进步，甚至比训练前更差。

面对这一困境，另一个流行方案应运而生，叫做GRPO（群组相对策略优化）。它的思路是直接扔掉那个不靠谱的打分员，改用一种"横向比较"的方式：对同一道题，让AI同时生成一批答案（通常是8个），然后以这批答案的平均得分作为基准，那些比平均水平好的答案就得到奖励，差的就受到惩罚。

这个方法在实践中效果相当不错，原因在于：它不再试图给推理过程中的每一步打分，而是把整个推理链当成一个整体来评价。然而，它的代价也很明显——每道题都要生成8个答案，计算量直接翻了8倍。在训练大模型这种极度耗费算力的场景下，这意味着训练时间大幅延长，成本急剧攀升。

**二、一个关键发现：GRPO其实在"偷偷做别的事"**

这篇论文最有趣的地方在于，研究团队对GRPO为何有效做出了一个全新的解读，而这个解读成为了他们提出新方法的理论基础。

研究团队用数学工具仔细分析了GRPO的运作机制后发现：GRPO之所以奏效，并不是因为"多采样"本身有什么神奇之处，而是因为它在不知不觉中把整个推理任务从一种框架切换到了另一种框架。

具体而言，标准PPO把AI解题看作一个漫长的"连续决策过程"——就像下棋，每走一步都有意义，每一步都可能影响最终胜负。这在理论上很美好，但实践中就会遇到前文描述的打分困难。而GRPO通过把整个答案当成一个整体来评分，实际上是把解题任务变成了一个完全不同的模型——技术上叫做"序列级情境赌博机"（Sequence-Level Contextual Bandit）。

"赌博机"这个比喻很直观：你走进一家赌场，面前有一排老虎机（每台代表一道题），你拉一次摇臂（生成一个完整答案），立刻得到一个结果（正确或错误），然后你根据这个结果决定下次对这台老虎机是否继续拉。整个过程没有"中间步骤"的概念，只有"整体行动"和"最终结果"的对应关系。

这个视角的转变非常重要，因为它意味着：当你不再试图给每个步骤单独打分，"打分员失灵"的问题就自然消失了。GRPO的成功，本质上是这种框架切换的成功，而非多采样的必然功劳。

这个发现让研究团队想到了一个问题：既然框架切换才是关键，我们能不能在保留这个框架的同时，摆脱多采样的高昂代价？

**三、SPPO：用一个聪明的"预测员"替代一批答案**

基于上述洞察，研究团队提出了他们的新方法：SPPO（序列级近端策略优化）。

核心思路可以用一个生活场景来理解。假设你在准备高考，你的家教老师给你出了一道难题。标准PPO的方式是：出题，你作答，老师给整道题的每一行打分，但他因为"尾部效应"而打分失准。GRPO的方式是：出题，你和7个同学同时作答，老师把你的成绩和大家平均成绩做比较，准确但费时。SPPO的方式是：出题，老师根据以往对你能力的了解，先预估你答对这道题的概率，然后你只作答一次，用"实际结果"减去"预估概率"来判断你这次发挥是超水准还是低水准。

这个"预估概率"就是SPPO引入的关键组件：一个轻量级的"价值模型"（Value Model）。它的唯一任务是，在看到一道题之后，预测当前的AI有多大概率能答对这道题——用一个0到1之间的数字表示。这个数字，就是"题目难度的预估"。

当AI作答完毕，得到"对（1分）"或"错（0分）"的结果后，SPPO用一个极简的公式计算优势信号：实际结果减去预估概率。比如，一道题预估答对率为0.3（很难），但AI答对了，那么优势信号就是1-0.3=0.7，说明这次表现远超预期，需要大力强化这个推理策略。反之，如果预估答对率0.9（很容易），但AI答错了，优势信号就是0-0.9=-0.9，说明这次翻车非常严重，需要强力纠正。

这个优势信号不再分配给推理过程中的每一步，而是均匀地广播给整个推理链中的所有步骤。如果这道题答对了，每一步都受到同等强度的鼓励；如果答错了，每一步都受到同等强度的惩罚。这种"一荣俱荣，一损俱损"的机制，完全绕开了"每步单独打分"的难题。

与此同时，这个价值模型用一种叫做"二元交叉熵"的方式训练，本质上就是让它学会更准确地预测题目难度。当预测越来越准确时，AI训练的稳定性也随之提升——因为一个好的基准让AI能更清楚地区分"这次是真的进步了"还是"只是运气好"。

**四、一个意外惊喜：小身材可以驾驭大模型**

SPPO在设计上还带来了一个额外的好处，研究团队称之为"解耦批评家策略"（Decoupled Critic）。

在标准PPO中，那个"打分员"（Critic）通常和被训练的AI模型一样大。这是因为打分员需要理解AI在每一步的输出，从而估算当前局面的价值，而这种理解能力要求打分员具备和AI相当的语言理解能力。于是，如果你要训练一个70亿参数的AI，打分员也需要70亿参数，内存占用直接翻倍。

但在SPPO的框架中，价值模型的任务极度简化——它只需要看一道题，输出一个数字，告诉你这道题的预估难度。这个任务远比"理解复杂推理过程"简单得多。

研究团队测试了一种极端组合：用一个只有15亿参数的小模型（DeepSeek-R1-Distill-Qwen-1.5B）作为价值模型，去辅助训练一个70亿参数的大模型（DeepSeek-R1-Distill-Qwen-7B）。结果出乎意料——这个"小个子"价值模型不仅能正常工作，而且这个组合在所有测试基准中取得了最高的平均分。显卡内存占用也从标准配置的91.5%下降到78.7%，降幅超过12个百分点。

这个发现在实践层面意义重大。研究人员指出，预估一道题的难度，根本不需要具备解题能力，就好比一个经验丰富的老师一眼就能判断某道题"很多学生会错"，即使他自己不亲自去做这道题。因此，用一个小模型完成这项预估任务，在逻辑上是合理的，而且在实验中也确实有效。

**五、数字验证：SPPO的表现到底如何**

论文通过大量实验来验证SPPO的实际效果，测试平台涵盖多个广为认可的数学推理基准：AIME24、AIME25（美国数学邀请赛题目）、AMC23（美国数学竞赛）、MATH500（5个难度等级的数学题集）以及Minerva Math（需要定量推理能力的科学题目）。

在1.5B规模（15亿参数）的模型上，标准PPO的综合平均分是44.06，甚至低于未经训练的基础模型（44.96）。这印证了"尾部效应"的危害——错误的训练信号不仅没有帮助，反而起到了负面作用。GRPO在使用8个样本的情况下，综合平均分提升至47.08。而SPPO仅使用单个样本，综合平均分达到了48.06，超过了GRPO。

在7B规模（70亿参数）的模型上，结果同样清晰。标准PPO从基础模型的52.49分提升到56.44分，进步明显但并不突出。GRPO达到57.44分，SPPO达到58.11分，配备小尺寸价值模型的SPPO组合更是达到了58.56分，拿下了所有方法中的最高分。

从训练速度的角度来看，差距更为直观。GRPO因为每道题都需要生成8个答案，训练进程推进得很慢。SPPO每道题只生成1个答案，在相同时间内能完成更多轮更新。实验数据显示，SPPO大约在22小时内就能达到约58分的峰值水平，而GRPO等方法需要明显更长的时间才能达到可比水平，整体速度差距约为5.9倍。

为了确认SPPO的优势确实来自其核心设计思想而非其他因素，研究团队还做了一个对照实验：把SPPO用来训练价值模型的方式（二元交叉熵损失）直接嫁接到标准PPO框架上，其他一切保持不变，命名为"PPO + BCE"。结果显示，这个混合方案和标准PPO一样不稳定，同样出现了性能崩溃。这意味着，SPPO的成功不是因为某个特定的数学技巧，而是因为"把整个推理链当作一个整体来评价"这个根本性的框架转变。

**六、不只是纸上谈兵：在经典游戏控制任务上的验证**

为了排除"成功可能只是因为在某个特定训练框架下的系统优化"这一疑虑，研究团队把SPPO移植到了五个经典的强化学习控制任务上：精密版CartPole（控制杆子不倒）、MountainCar（让小车爬上山）、Hopper（双足机器人前进）、LunarLander（月球着陆器着陆）和Pendulum（保持摆杆直立）。

这些任务被专门改造成类似AI推理的稀疏奖励模式：整个过程中没有任何中间反馈，只在最终时刻给出"成功"或"失败"的二元结果。这和AI解数学题的情境高度吻合。

测试结果显示，在难度最高的Hopper和MountainCar任务上，标准PPO几乎完全失败，成功率停在接近零的水平；而SPPO成功解决了这两个任务，成功率稳步攀升。在LunarLander上，SPPO保持了稳定上升的学习曲线，而标准PPO则出现了明显的波动和倒退。在精密CartPole上，SPPO收敛速度明显更快。这组实验表明，SPPO的优越性是算法本身的特性，在不同的任务场景下都能复现。

**七、价值模型学到了什么**

研究团队还专门分析了价值模型的质量，因为SPPO的整个机制都依赖于一个能准确预测题目难度的价值模型。

他们随机抽取了200道题目，让AI多次尝试每道题，用实际答对率作为"真实难度"的衡量标准，再与价值模型的预测值做对比。皮尔逊相关系数（衡量线性相关程度的指标，满分1.0）达到0.642，斯皮尔曼等级相关系数（衡量排名是否一致）达到0.664。这意味着价值模型确实学会了区分难题和简单题，虽然不完美，但相关性足够显著，能为训练提供有效的基准信号。

研究团队还观察到一个有趣的现象：价值模型的预测值整体呈现"保守"的特点，倾向于预测在0.6到0.7之间，而不是极端的0或1。这种"回归均值"的行为实际上对训练是有益的——它不会因为过于自信或过于悲观而产生扭曲的训练信号，而是始终保持一种适度的不确定性，让真正的"超常发挥"和"出乎意料的失误"都能产生足够强的纠正信号。

**说到底，这项研究发现了什么，又意味着什么**

归根结底，这项研究回答了一个在AI训练领域长期存在争议的问题：大模型推理能力的训练，应该用什么样的框架来建模？

研究团队的答案是：把整个推理过程当成"一次性行动"来评价，而不是"一系列连续步骤"。这不是一种妥协，而是一种更贴近问题本质的视角。推理过程本身是AI内部的思考流，而外部可观测的、有意义的评价对象是完整的推理结果，两者之间不需要强行建立逐步对应关系。

从实际影响来看，这项研究降低了训练高质量推理AI的门槛。过去，训练一个70亿参数的推理模型需要同时加载一个同等大小的打分员，内存压力极大；而SPPO允许用一个小十倍的模型担任价值预测者，让更多研究者能够在有限的计算资源下开展实验。5.9倍的训练速度提升，则意味着同样的算力能在更短时间内完成实验迭代，加快AI推理能力的研究进展。

当然，这项研究也坦诚地指出了自身的局限：SPPO的设计前提是存在一个明确的对错判断——数学题是否答正确。对于那些没有标准答案的开放性任务，比如"帮我写一首感情细腻的诗"，这个框架就无从评判，需要另辟蹊径。

对于想要深入了解技术细节的读者，可以通过arXiv平台，以论文编号arXiv:2604.08865查阅完整原文，研究团队也已将全部代码开源，地址为github.com/sustech-nlp/SPPO，可以直接获取实验脚本和复现所需的配置参数。

Q&A

Q1：SPPO和GRPO相比，训练速度快多少，性能有没有损失？

A：根据论文实验数据，SPPO在训练速度上比GRPO快约5.9倍，主要原因是GRPO每道题需要同时生成8个答案，而SPPO只需生成1个。性能方面，SPPO不仅没有损失，在1.5B和7B两种规模的模型上，SPPO的综合平均分都略高于GRPO（N=8）。使用更小尺寸价值模型的SPPO组合更是拿下了所有测试方法中的最高分。

Q2：SPPO里的价值模型要多大才够用，能不能用比主模型小很多的模型？

A：实验结果表明，价值模型可以远小于主模型。研究团队测试了用15亿参数模型作为价值模型来辅助训练70亿参数主模型，两者相差约4.7倍。结果显示，这个"小个子"组合不仅正常工作，还取得了所有方案中的最高测试分数，同时把显卡内存占用从91.5%降低到78.7%。这说明预测题目难度所需的能力，远比解题能力更容易学习。

Q3：标准PPO在推理训练中为什么会失败，具体是哪里出了问题？

A：标准PPO失败的核心原因是"尾部效应"——其内置的打分员（Critic）无法在几千步的推理过程中有效分配奖惩信号，而是一直等到推理接近结尾才根据最后几行文字猜测结果，导致整个中间推理过程既收不到有效激励，也收不到有效惩罚。论文通过可视化实验直接观察到，正确和错误推理链的价值曲线在中间阶段几乎完全重叠，只在结尾附近才分开，证实了这一失效机制。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.