Meta实验室新突破：让AI数学推理更聪明的"混合奖励"训练法|验证器|meta实验室

Meta实验室新突破：让AI数学推理更聪明的"混合奖励"训练法

2025-11-12 21:48:21　来源: 科技行者

北京举报

分享至

这项由Meta人工智能实验室（FAIR）的陶雷天、伊利亚·库利科夫等研究人员与威斯康星大学麦迪逊分校合作完成的研究，发表于2025年10月，论文编号为arXiv:2510.07242v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

教AI做数学题就像训练一个学生，但现在的方法存在一个根本问题：要么太严格，要么太宽松。现有的训练方式通常采用两种截然不同的评判标准。第一种就像那种极其苛刻的数学老师，只认标准答案，哪怕你的解题思路完全正确、只是最后答案格式稍有不同，也会被判为零分。第二种则像那种过分宽松的老师，给分很随意，有时候错误答案也能得高分，正确答案反而分数不高。

Meta的研究团队意识到，这两种极端方式都不利于AI真正学会数学推理。他们提出了一个巧妙的解决方案，称为HERO（混合集成奖励优化），这个方法就像找到了严格老师和宽松老师之间的完美平衡点。

当前AI数学训练面临的核心困境可以用一个简单的例子来说明。假设AI要解决一道数学题，答案是"2x+3"，但AI给出的答案是"3+2x"。从数学角度看，这两个表达式完全等价，但传统的严格验证系统会因为顺序不同而判定为错误。相反，如果使用过于宽松的评分模型，它可能会给一些看似合理但实际错误的答案打高分，误导AI的学习方向。

研究团队发现，目前的AI训练主要依赖两种奖励信号。第一种是"可验证奖励"，就像标准化考试的答题卡一样，只有0分或满分，没有中间地带。这种方法虽然准确，但过于严苛，很多合理的答案因为格式问题被错误地判为零分。第二种是"奖励模型"，它能给出连续的分数，比如75分、85分等，能够识别部分正确的答案，但有时候判分不够准确。

HERO的创新之处在于巧妙地结合了这两种方法的优势。它采用了一种叫做"分层标准化"的技术，简单来说就是先用严格的验证器将所有答案分为"正确"和"错误"两个大组，然后在每个组内部使用奖励模型进行细致的排名。这就像是先按照及格和不及格将学生分组，然后在及格组内部按照具体分数排序，在不及格组内部也按照接近程度排序。

这种方法还引入了"方差感知加权"机制。当AI面对简单问题时，大部分答案要么全对要么全错，这种情况下学习价值有限。但遇到复杂问题时，不同答案的质量差异很大，这时候就需要给予更多关注。HERO会自动识别这些"有挑战性"的问题，并在训练中给它们分配更高的权重，确保AI把更多精力花在真正困难的推理任务上。

为了验证这个方法的有效性，研究团队进行了全面的实验测试。他们构建了三种不同的训练数据集：容易验证的数学题（答案格式标准，容易自动检查）、难以验证的数学题（答案格式灵活，需要人工判断），以及两种题目的混合集。实验涵盖了多个知名的数学推理基准测试，包括MATH500、AMC、Minerva和Olympiad等。

实验结果令人振奋。在使用Qwen3-4B-Base模型的测试中，当训练数据为容易验证的样本时，HERO在容易验证任务上的平均得分达到62.0，显著超过了仅使用奖励模型的56.4分和仅使用规则验证器的58.3分。更重要的是，在难以验证的任务上，HERO的优势更加明显，得分高达66.3，比奖励模型方法高出11.7分，比规则验证器方法高出9.2分。

当训练数据包含难以验证的样本时，传统的规则验证器表现尤其糟糕，因为它们面对格式不标准的正确答案时往往束手无策。在这种情况下，HERO仍能保持稳定的性能提升，证明了其强大的适应性和鲁棒性。

研究团队还进行了详细的消融实验，深入分析了HERO各个组件的贡献。他们发现，在负样本（错误答案）组内提供密集的奖励信号比在正样本组内更为重要。这个发现很有道理：对于正确答案，主要目标是确认其正确性；但对于错误答案，区分"完全错误"和"部分正确"对学习更有价值。

实验还显示，奖励范围的选择对性能有重要影响。对于容易验证的任务，较小的奖励范围（如0.05）效果最好，因为规则验证器的精确性使得较紧的范围能够减少噪声。对于混合任务，较大的奖励范围（如0.1或0.2）能提供更丰富的信号，帮助模型更好地学习复杂情况。

令人惊讶的是，使用更大的奖励模型（从7B增加到72B参数）并没有带来显著的性能提升，这表明HERO的优势主要来自其巧妙的混合奖励设计，而不是简单的模型规模扩大。这个发现对实际应用很有价值，因为它意味着可以在不大幅增加计算成本的情况下获得性能提升。

研究团队还与其他先进方法进行了对比。他们测试了基于生成模型的验证器（如TIGER-Lab的通用验证器）和大型语言模型验证器（如Qwen2.5-7B-Instruct），结果显示HERO在所有测试场景中都保持了领先优势。这证明了结构化奖励整合比单纯增加验证器规模更为有效。

为了更深入地理解奖励模型的行为，研究团队分析了它在不同难度任务上的表现。他们发现，在难以验证的任务上，奖励模型容易出现"奖励欺骗"现象，即快速提高奖励分数但实际数学准确性却在下降。这就像学生学会了考试技巧但没有真正掌握知识。HERO通过将奖励模型的输出锚定到验证器定义的正确性群组中，有效避免了这种问题。

研究还揭示了一个有趣的现象：密集负样本奖励比密集正样本奖励更重要。当AI产生错误答案时，能够区分"完全胡说八道"和"思路基本正确但细节有误"对学习非常有价值。而对于正确答案，主要的区别只是表达方式和完整性，重要性相对较低。

在可扩展性方面，HERO在不同规模的模型上都显示出了一致的改进效果。无论是在相对较强的Qwen3-4B-Base上，还是在基线较弱的OctoThinker-8B-Hybrid-Base上，HERO都能带来显著的性能提升。这种一致性表明该方法具有良好的普遍适用性。

值得注意的是，HERO不仅在数学推理任务上表现出色，其设计理念也可能适用于其他需要精确性和创造性平衡的任务。比如在代码生成、逻辑推理、甚至某些创意写作任务中，都存在类似的"严格性"与"灵活性"之间的张力。

从技术实现角度看，HERO引入的计算开销是可控的。虽然需要同时运行验证器和奖励模型，但这种额外成本在现代GPU集群环境下是可以接受的。而且，由于方法能够更高效地利用训练数据，实际上可能减少达到相同性能水平所需的总训练时间。

这项研究也为未来的发展指明了方向。研究团队指出，可以进一步改进验证器的覆盖范围，开发更好的难度估计器，以及探索过程级别的奖励信号（不仅仅关注最终答案，还要评估解题步骤的质量）。这些改进方向都有可能进一步提升AI的数学推理能力。

从更宏观的角度看，这项研究反映了AI发展中的一个重要趋势：从粗放式的规模扩张转向精细化的训练优化。与其简单地增加模型参数或训练数据，不如深入思考如何设计更好的训练信号和学习机制。HERO正是这种思路的典型体现。

说到底，HERO就像是为AI找到了一位既严格又灵活的好老师。这位老师知道什么时候该坚持标准，什么时候该给予鼓励，能够根据学生的不同情况调整教学策略。通过这种精心设计的教学方法，AI在数学推理方面的表现得到了显著提升，为构建更强大、更可靠的人工智能系统迈出了重要一步。

Q&A

Q1：HERO混合奖励优化方法具体是如何工作的？

A：HERO采用分层标准化技术，先用严格的验证器将答案分为正确和错误两组，然后在每组内部用奖励模型进行细致排名。同时引入方差感知加权，自动识别有挑战性的问题并给予更高权重，确保AI把更多精力花在真正困难的推理任务上。

Q2：为什么传统的AI数学训练方法效果不好？

A：传统方法要么过于严格（只认标准答案格式，正确但格式不同的答案也被判零分），要么过于宽松（评分随意，错误答案可能得高分）。这两种极端都不利于AI真正学会数学推理，HERO正是为了解决这个问题而设计的。

Q3：HERO在实际测试中的效果如何？

A：在Qwen3-4B-Base模型测试中，HERO在难以验证任务上得分66.3，比奖励模型方法高11.7分，比规则验证器高9.2分。在各种数学推理基准测试中都显示出显著优势，且在不同规模模型上都有一致的改进效果。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.