网易首页 > 网易号 > 正文 申请入驻

Meta实验室新突破:让AI数学推理更聪明的"混合奖励"训练法

0
分享至


这项由Meta人工智能实验室(FAIR)的陶雷天、伊利亚·库利科夫等研究人员与威斯康星大学麦迪逊分校合作完成的研究,发表于2025年10月,论文编号为arXiv:2510.07242v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

教AI做数学题就像训练一个学生,但现在的方法存在一个根本问题:要么太严格,要么太宽松。现有的训练方式通常采用两种截然不同的评判标准。第一种就像那种极其苛刻的数学老师,只认标准答案,哪怕你的解题思路完全正确、只是最后答案格式稍有不同,也会被判为零分。第二种则像那种过分宽松的老师,给分很随意,有时候错误答案也能得高分,正确答案反而分数不高。

Meta的研究团队意识到,这两种极端方式都不利于AI真正学会数学推理。他们提出了一个巧妙的解决方案,称为HERO(混合集成奖励优化),这个方法就像找到了严格老师和宽松老师之间的完美平衡点。

当前AI数学训练面临的核心困境可以用一个简单的例子来说明。假设AI要解决一道数学题,答案是"2x+3",但AI给出的答案是"3+2x"。从数学角度看,这两个表达式完全等价,但传统的严格验证系统会因为顺序不同而判定为错误。相反,如果使用过于宽松的评分模型,它可能会给一些看似合理但实际错误的答案打高分,误导AI的学习方向。

研究团队发现,目前的AI训练主要依赖两种奖励信号。第一种是"可验证奖励",就像标准化考试的答题卡一样,只有0分或满分,没有中间地带。这种方法虽然准确,但过于严苛,很多合理的答案因为格式问题被错误地判为零分。第二种是"奖励模型",它能给出连续的分数,比如75分、85分等,能够识别部分正确的答案,但有时候判分不够准确。

HERO的创新之处在于巧妙地结合了这两种方法的优势。它采用了一种叫做"分层标准化"的技术,简单来说就是先用严格的验证器将所有答案分为"正确"和"错误"两个大组,然后在每个组内部使用奖励模型进行细致的排名。这就像是先按照及格和不及格将学生分组,然后在及格组内部按照具体分数排序,在不及格组内部也按照接近程度排序。

这种方法还引入了"方差感知加权"机制。当AI面对简单问题时,大部分答案要么全对要么全错,这种情况下学习价值有限。但遇到复杂问题时,不同答案的质量差异很大,这时候就需要给予更多关注。HERO会自动识别这些"有挑战性"的问题,并在训练中给它们分配更高的权重,确保AI把更多精力花在真正困难的推理任务上。

为了验证这个方法的有效性,研究团队进行了全面的实验测试。他们构建了三种不同的训练数据集:容易验证的数学题(答案格式标准,容易自动检查)、难以验证的数学题(答案格式灵活,需要人工判断),以及两种题目的混合集。实验涵盖了多个知名的数学推理基准测试,包括MATH500、AMC、Minerva和Olympiad等。

实验结果令人振奋。在使用Qwen3-4B-Base模型的测试中,当训练数据为容易验证的样本时,HERO在容易验证任务上的平均得分达到62.0,显著超过了仅使用奖励模型的56.4分和仅使用规则验证器的58.3分。更重要的是,在难以验证的任务上,HERO的优势更加明显,得分高达66.3,比奖励模型方法高出11.7分,比规则验证器方法高出9.2分。

当训练数据包含难以验证的样本时,传统的规则验证器表现尤其糟糕,因为它们面对格式不标准的正确答案时往往束手无策。在这种情况下,HERO仍能保持稳定的性能提升,证明了其强大的适应性和鲁棒性。

研究团队还进行了详细的消融实验,深入分析了HERO各个组件的贡献。他们发现,在负样本(错误答案)组内提供密集的奖励信号比在正样本组内更为重要。这个发现很有道理:对于正确答案,主要目标是确认其正确性;但对于错误答案,区分"完全错误"和"部分正确"对学习更有价值。

实验还显示,奖励范围的选择对性能有重要影响。对于容易验证的任务,较小的奖励范围(如0.05)效果最好,因为规则验证器的精确性使得较紧的范围能够减少噪声。对于混合任务,较大的奖励范围(如0.1或0.2)能提供更丰富的信号,帮助模型更好地学习复杂情况。

令人惊讶的是,使用更大的奖励模型(从7B增加到72B参数)并没有带来显著的性能提升,这表明HERO的优势主要来自其巧妙的混合奖励设计,而不是简单的模型规模扩大。这个发现对实际应用很有价值,因为它意味着可以在不大幅增加计算成本的情况下获得性能提升。

研究团队还与其他先进方法进行了对比。他们测试了基于生成模型的验证器(如TIGER-Lab的通用验证器)和大型语言模型验证器(如Qwen2.5-7B-Instruct),结果显示HERO在所有测试场景中都保持了领先优势。这证明了结构化奖励整合比单纯增加验证器规模更为有效。

为了更深入地理解奖励模型的行为,研究团队分析了它在不同难度任务上的表现。他们发现,在难以验证的任务上,奖励模型容易出现"奖励欺骗"现象,即快速提高奖励分数但实际数学准确性却在下降。这就像学生学会了考试技巧但没有真正掌握知识。HERO通过将奖励模型的输出锚定到验证器定义的正确性群组中,有效避免了这种问题。

研究还揭示了一个有趣的现象:密集负样本奖励比密集正样本奖励更重要。当AI产生错误答案时,能够区分"完全胡说八道"和"思路基本正确但细节有误"对学习非常有价值。而对于正确答案,主要的区别只是表达方式和完整性,重要性相对较低。

在可扩展性方面,HERO在不同规模的模型上都显示出了一致的改进效果。无论是在相对较强的Qwen3-4B-Base上,还是在基线较弱的OctoThinker-8B-Hybrid-Base上,HERO都能带来显著的性能提升。这种一致性表明该方法具有良好的普遍适用性。

值得注意的是,HERO不仅在数学推理任务上表现出色,其设计理念也可能适用于其他需要精确性和创造性平衡的任务。比如在代码生成、逻辑推理、甚至某些创意写作任务中,都存在类似的"严格性"与"灵活性"之间的张力。

从技术实现角度看,HERO引入的计算开销是可控的。虽然需要同时运行验证器和奖励模型,但这种额外成本在现代GPU集群环境下是可以接受的。而且,由于方法能够更高效地利用训练数据,实际上可能减少达到相同性能水平所需的总训练时间。

这项研究也为未来的发展指明了方向。研究团队指出,可以进一步改进验证器的覆盖范围,开发更好的难度估计器,以及探索过程级别的奖励信号(不仅仅关注最终答案,还要评估解题步骤的质量)。这些改进方向都有可能进一步提升AI的数学推理能力。

从更宏观的角度看,这项研究反映了AI发展中的一个重要趋势:从粗放式的规模扩张转向精细化的训练优化。与其简单地增加模型参数或训练数据,不如深入思考如何设计更好的训练信号和学习机制。HERO正是这种思路的典型体现。

说到底,HERO就像是为AI找到了一位既严格又灵活的好老师。这位老师知道什么时候该坚持标准,什么时候该给予鼓励,能够根据学生的不同情况调整教学策略。通过这种精心设计的教学方法,AI在数学推理方面的表现得到了显著提升,为构建更强大、更可靠的人工智能系统迈出了重要一步。

Q&A

Q1:HERO混合奖励优化方法具体是如何工作的?

A:HERO采用分层标准化技术,先用严格的验证器将答案分为正确和错误两组,然后在每组内部用奖励模型进行细致排名。同时引入方差感知加权,自动识别有挑战性的问题并给予更高权重,确保AI把更多精力花在真正困难的推理任务上。

Q2:为什么传统的AI数学训练方法效果不好?

A:传统方法要么过于严格(只认标准答案格式,正确但格式不同的答案也被判零分),要么过于宽松(评分随意,错误答案可能得高分)。这两种极端都不利于AI真正学会数学推理,HERO正是为了解决这个问题而设计的。

Q3:HERO在实际测试中的效果如何?

A:在Qwen3-4B-Base模型测试中,HERO在难以验证任务上得分66.3,比奖励模型方法高11.7分,比规则验证器高9.2分。在各种数学推理基准测试中都显示出显著优势,且在不同规模模型上都有一致的改进效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“摘帽”首日!603268,盘中涨停

“摘帽”首日!603268,盘中涨停

大众证券报
2026-04-20 11:00:52
不止Pura 90系列和Pura X Max 余承东公布新品发布会更多强大阵容

不止Pura 90系列和Pura X Max 余承东公布新品发布会更多强大阵容

机智万象
2026-04-19 20:46:27
李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

以茶带书
2026-04-14 16:39:49
事关房贷,最新公布!

事关房贷,最新公布!

业翔民安
2026-04-20 18:29:30
马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

通文知史
2026-04-19 19:00:08
德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

吃货的分享
2026-04-20 18:31:42
华为Pura X两款新色开售 16GB+512GB售价7999元

华为Pura X两款新色开售 16GB+512GB售价7999元

CNMO科技
2026-04-20 18:09:39
自然资源部:日本地震引发海啸,不会影响我国沿岸

自然资源部:日本地震引发海啸,不会影响我国沿岸

澎湃新闻
2026-04-20 22:08:05
爆料!全红婵网暴案真正的目的,原来是这个!

爆料!全红婵网暴案真正的目的,原来是这个!

艺利森
2026-04-18 09:19:15
建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

阿龙美食记
2026-04-10 10:30:57
澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳洲红领巾
2026-04-20 13:44:46
双箭齐发!长征十号乙、朱雀三号将验证可回收技术

双箭齐发!长征十号乙、朱雀三号将验证可回收技术

每日经济新闻
2026-04-20 14:52:54
何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

懂球帝
2026-04-19 12:31:08
刘亦菲.竟也有这么汹涌的照片,太奔放了微信朋友圈

刘亦菲.竟也有这么汹涌的照片,太奔放了微信朋友圈

可乐谈情感
2026-04-20 00:30:40
【重大突破】续航破1200!比亚迪全固态电池通过车规验证

【重大突破】续航破1200!比亚迪全固态电池通过车规验证

新浪财经
2026-04-20 17:44:40
天齐锂业:一季度净利润同比预增1530.31%—1818.01%

天齐锂业:一季度净利润同比预增1530.31%—1818.01%

证券时报
2026-04-20 18:44:04
十大起义总指挥都是谁

十大起义总指挥都是谁

祁州校尉
2026-04-17 11:00:28
王一博綦美合官宣恋情!?

王一博綦美合官宣恋情!?

八卦疯叔
2026-04-20 10:05:17
42岁吕一近况曝光!嫁钱泳辰10年没生孩子,如今尽情享受丁克生活

42岁吕一近况曝光!嫁钱泳辰10年没生孩子,如今尽情享受丁克生活

民宿体验志
2026-04-18 18:20:39
倘若湖人本赛季冲冠失败,这5人下赛季或遭球队大清洗!

倘若湖人本赛季冲冠失败,这5人下赛季或遭球队大清洗!

田先生篮球
2026-04-19 21:33:00
2026-04-20 22:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8068文章数 562关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

亲子
游戏
数码
教育
健康

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

《风启之旅》Steam在线峰值是《碧海黑帆》85倍

数码要闻

惠普推出2026款HyperX暗影精灵MAX游戏本

教育要闻

关注!海淀这所学校不再具备办学资格

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版