香港科大：用"随机策略"训练AI数学推理，效果竟然超越复杂算法|实验|复杂性

分享至

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这些传统方法遵循一个叫做"广义策略迭代"的循环过程，就像一个学生在学习时不断地评估自己的能力，然后根据评估结果改进学习方法，再重新评估，如此反复。虽然这种方法确实有效，但研究人员发现它存在一些问题。最大的问题是训练过程不够稳定，AI在学习过程中容易"偏科"——过度专注于某种解题方法，而忽略了其他可能有效的思路。这种现象被称为"多样性坍塌"，就像一个原本思维活跃的学生逐渐变得思路单一，只会用一种固定的方法解决所有问题。

为了解决这些问题，研究人员通常需要添加各种复杂的技巧和调整机制，这使得整个训练系统变得极其复杂，就像给一台本来简单的机器安装了无数个复杂的零件，不仅增加了故障风险，也让维护变得困难重重。

面对这些挑战，研究团队决定从根本上重新思考这个问题。他们仔细分析了AI数学推理任务的本质特征，发现了一个关键洞察：与传统的强化学习任务（比如玩电子游戏或控制机器人）不同，数学推理问题具有一种特殊的结构特征。

在数学推理中，每一步推理都会产生一个确定的新状态，而且这些状态形成了一个树状结构——每个状态都有一个唯一的"父状态"，不同的推理路径不会重复。这就像在一个巨大的迷宫中，每条路径都是独特的，没有环路，也没有交叉点。更重要的是，问题的答案只有对错两种，不存在部分正确的情况。

基于这个发现，研究团队提出了一个令人惊讶的理论结果：在这种特殊的数学推理环境中，我们不需要复杂的策略优化过程，只需要评估一个完全随机的策略（也就是每步都随机选择的策略），然后根据这个随机策略的价值函数来选择最优行动就足够了。

这个发现就像是发现了一个烹饪秘密：要做出最好的菜，不需要复杂的烹饪技巧和昂贵的设备，只需要了解每种食材的基本特性，然后选择最合适的搭配就行了。研究团队在理论上证明了，通过评估这个"最简单"的随机策略，就能找到最优的解题路径。

但是，完全贪心地选择最优行动虽然能保证找到正确答案，却会牺牲解题方法的多样性。这就像一个学生虽然总能找到正确答案，但永远只用同一种方法，缺乏灵活性。为了在准确性和多样性之间取得平衡，研究团队设计了一种巧妙的方法：不是严格选择最优行动，而是根据随机策略的价值函数进行概率采样。价值越高的行动被选中的概率越大，但其他行动也有被选中的机会。

这种方法的妙处在于，随机策略的价值函数实际上代表了从某个状态开始，随机继续推理直到结束时获得正确答案的概率。因此，根据这个价值进行采样，既能偏向于更有希望的推理路径，又能保持探索其他可能性的能力。

研究团队将这个方法命名为ROVER（Random Policy Valuation for Diverse Reasoning），意思是"面向多样化推理的随机策略评估"。虽然名字听起来很学术，但其核心思想却非常简单：评估随机行为的价值，然后据此做出明智的选择。

在实际实现中，ROVER需要面对一个挑战：在真实的AI系统中，状态空间和行动空间都非常庞大，无法像理论分析那样直接计算所有可能的价值。为了解决这个问题，研究团队设计了几个巧妙的近似方法。

首先，他们直接利用语言模型本身的参数来表示价值函数，而不是额外训练一个价值网络。这种方法的好处是充分利用了语言模型已经学到的知识，同时简化了系统架构。具体来说，他们使用模型输出概率的对数来表示相对价值，这种表示方法既简单又有效。

为了使训练过程更加稳定，研究团队还引入了一个相对价值的概念。不是直接计算绝对价值，而是计算相对于某个基准策略的价值差异。这就像在比较不同投资方案时，我们通常会比较它们相对于基准收益率的表现，而不是绝对收益。

另一个重要的技术改进是使用了组内奖励中心化的方法。简单来说，就是在每一批训练样本中，用每个问题的平均得分来调整个别样本的奖励。这种方法可以减少奖励信号的噪声，使训练过程更加稳定。

为了验证ROVER方法的效果，研究团队进行了大量的实验。他们首先在一个叫做"倒计时"的简单数学任务上测试了这个方法。倒计时任务要求给定几个数字和一个目标数字，使用基本的算术运算（加减乘除）来得到目标数字。虽然这个任务看似简单，但对于AI来说却具有一定的挑战性，而且通常存在多种不同的解法。

实验结果令人印象深刻。ROVER不仅在解题准确性上超越了传统方法，更重要的是，它能够找到更多样化的解题方法。在一个具体的例子中，传统方法只能找到3种不同的解法，而ROVER能够发现17种不同的解法。这种多样性对于AI系统的鲁棒性和泛化能力都非常重要。

接下来，研究团队在更具挑战性的数学竞赛题目上测试了ROVER。这些题目包括美国数学邀请赛（AIME）、哈佛-MIT数学竞赛（HMMT）等顶级数学竞赛的真题。这些题目对人类数学天才都具有相当的难度，更不用说AI系统了。

在这些高难度测试中，ROVER展现出了显著的优势。以Qwen3-8B基础模型为例，使用ROVER训练后，模型在各项测试中的表现都有大幅提升。在pass@1指标（第一次尝试就答对的概率）上，ROVER比最强的基准方法平均提升了8.2个百分点。在pass@256指标（256次尝试中至少答对一次的概率）上，提升幅度更是达到了16.8个百分点。

这些数字背后的意义非常重大。pass@1的提升意味着AI系统的即时解题能力得到了显著增强，而pass@256的大幅提升则表明AI系统的探索能力和多样性得到了根本性的改善。这就像一个学生不仅提高了考试时的第一反应正确率，更重要的是，当第一种方法不行时，能够尝试更多不同的解题思路。

研究团队还发现了一个有趣的现象：ROVER训练的模型在生成解题过程时，会产生更多的"反思"和"修正"类词汇，比如"等等"、"不过"等。这表明模型学会了在解题过程中进行自我检查和路径调整，就像人类数学家在解题时会不断质疑和验证自己的思路一样。

为了验证ROVER的泛化能力，研究团队还在一个完全不相关的领域——GPQA数据集上测试了模型的表现。GPQA包含生物、物理、化学等领域的研究生水平问题，与数学推理有很大差异。令人惊喜的是，ROVER训练的模型在这些任务上也表现出了更好的性能，这说明这种训练方法提升的不仅仅是数学能力，而是一种更通用的推理能力。

从技术实现的角度来看，ROVER还有一个重要优势：它比传统方法更加简洁和稳定。传统的强化学习方法需要仔细调整很多超参数，而且训练过程容易不稳定。相比之下，ROVER的超参数更少，训练过程也更加稳定。这对于实际应用来说是一个重要的优势，因为它降低了方法的使用门槛和维护成本。

研究团队进行了详细的消融实验来分析ROVER各个组成部分的作用。他们发现，温度参数（控制采样随机性的参数）的选择对结果有重要影响。温度太低会导致多样性不足，温度太高则会影响解题准确性。通过系统的分析，他们确定了一个平衡点，既能保持高准确性，又能维持良好的多样性。

另一个重要发现是，ROVER在测试时的表现也更加优秀。当使用多数投票策略（生成多个答案然后选择最常出现的答案）时，ROVER训练的模型表现出更好的一致性和可靠性。这进一步证明了多样性训练的价值：虽然单次生成可能不完美，但多样化的生成能力使得通过多次尝试找到正确答案的概率大大增加。

在不同规模的模型上，ROVER都展现出了一致的改进效果。无论是较小的1.5B参数模型，还是较大的8B参数模型，ROVER都能带来显著的性能提升。这说明这种方法的有效性不依赖于特定的模型规模，具有良好的通用性。

研究团队还对训练过程进行了深入分析。他们发现，与传统方法相比，ROVER训练的模型能够在整个训练过程中保持相对较高的熵值（多样性的一个指标）。传统方法训练的模型熵值会随着训练进行而持续下降，最终趋于单一化，而ROVER训练的模型熵值下降缓慢，甚至在后期还能有所回升。这直观地解释了为什么ROVER能够保持更好的多样性。

从计算效率的角度来看，ROVER也表现出色。由于不需要复杂的策略优化循环，ROVER的训练速度比传统方法更快，所需的计算资源也更少。这使得更多的研究团队和机构能够使用这种方法，推动相关技术的普及和发展。

研究团队在论文中还讨论了ROVER方法的理论基础。他们从马尔可夫决策过程的角度分析了为什么随机策略评估在数学推理任务中特别有效。这种理论分析不仅为方法的有效性提供了严格的数学证明，也为未来的改进指明了方向。

值得注意的是，虽然ROVER在数学推理任务上表现出色，但研究团队也诚实地讨论了方法的局限性。ROVER特别适用于具有确定性转移和树状结构的任务，对于其他类型的强化学习任务，其优势可能不会如此明显。不过，这种局限性并不影响其在目标应用领域的价值，反而体现了研究的严谨性。

这项研究的意义远超出了技术层面的改进。它展示了一种新的研究思路：与其一味地增加系统的复杂性，不如深入理解问题的本质特征，然后设计出真正适合的解决方案。这种思路在当前AI研究追求规模和复杂性的大背景下，显得尤为珍贵和启发性。

从实际应用的角度来看，ROVER为AI辅助数学教育、自动定理证明、科学计算等领域提供了新的技术选择。特别是在需要生成多样化解题方法的教育场景中，ROVER的优势尤为突出。一个能够提供多种解题思路的AI助教，比只会一种方法的AI助教要有用得多。

展望未来，这项研究为强化学习在结构化问题上的应用开辟了新的方向。研究团队计划将ROVER的核心思想扩展到其他具有类似结构特征的任务中，比如程序合成、逻辑推理等。同时，他们也在探索如何进一步提升方法的效率和效果。

说到底，这项研究告诉我们一个朴素而深刻的道理：复杂的问题未必需要复杂的解决方案。有时候，最简单的方法反而能产生最好的效果。正如研究团队在论文中引用的达芬奇名言："简单是最高级的复杂。"在AI技术日益复杂化的今天，这种回归本质的研究思路值得我们深思和借鉴。

这项研究不仅在技术上取得了突破，更在方法论上提供了启示。它提醒我们，在追求技术进步的同时，不要忘记思考问题的本质，寻找真正适合的解决方案。这种科学精神和研究态度，可能比具体的技术成果更加珍贵和持久。

Q&A

Q1：ROVER方法与传统的PPO、GRPO等强化学习方法相比有什么优势？

A：ROVER最大的优势在于简单而有效。传统方法需要复杂的策略优化循环，容易导致训练不稳定和多样性坍塌，还需要调整很多参数。ROVER只需要评估一个随机策略，然后根据评估结果选择行动，不仅训练更稳定，还能保持解题方法的多样性。实验显示ROVER在数学竞赛题上比最强基准方法提升8.2个百分点的准确率。

Q2：为什么随机策略评估能在数学推理中取得好效果？

A：关键在于数学推理任务的特殊结构。数学推理形成树状结构，每步推理都有确定结果，答案只有对错两种。在这种环境中，随机策略的价值函数实际上代表了获得正确答案的概率。研究团队从理论上证明了，只要根据这个随机策略的价值贪心选择行动，就能找到最优解题路径。

Q3：ROVER方法训练的AI模型在解题多样性上表现如何？

A：ROVER在多样性方面表现突出。在倒计时任务中，传统方法只能找到3种解法，ROVER能发现17种不同解法。在数学竞赛题上，ROVER训练的模型在pass@256指标上比基准方法提升16.8个百分点，说明它能探索更多样的解题路径。而且ROVER模型会生成更多"等等"、"不过"等反思词汇，显示出更强的自我修正能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.