网易首页 > 网易号 > 正文 申请入驻

Meta实验室新突破:让AI数学推理更聪明的"混合奖励"训练法

0
分享至


这项由Meta人工智能实验室(FAIR)的陶雷天、伊利亚·库利科夫等研究人员与威斯康星大学麦迪逊分校合作完成的研究,发表于2025年10月,论文编号为arXiv:2510.07242v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

教AI做数学题就像训练一个学生,但现在的方法存在一个根本问题:要么太严格,要么太宽松。现有的训练方式通常采用两种截然不同的评判标准。第一种就像那种极其苛刻的数学老师,只认标准答案,哪怕你的解题思路完全正确、只是最后答案格式稍有不同,也会被判为零分。第二种则像那种过分宽松的老师,给分很随意,有时候错误答案也能得高分,正确答案反而分数不高。

Meta的研究团队意识到,这两种极端方式都不利于AI真正学会数学推理。他们提出了一个巧妙的解决方案,称为HERO(混合集成奖励优化),这个方法就像找到了严格老师和宽松老师之间的完美平衡点。

当前AI数学训练面临的核心困境可以用一个简单的例子来说明。假设AI要解决一道数学题,答案是"2x+3",但AI给出的答案是"3+2x"。从数学角度看,这两个表达式完全等价,但传统的严格验证系统会因为顺序不同而判定为错误。相反,如果使用过于宽松的评分模型,它可能会给一些看似合理但实际错误的答案打高分,误导AI的学习方向。

研究团队发现,目前的AI训练主要依赖两种奖励信号。第一种是"可验证奖励",就像标准化考试的答题卡一样,只有0分或满分,没有中间地带。这种方法虽然准确,但过于严苛,很多合理的答案因为格式问题被错误地判为零分。第二种是"奖励模型",它能给出连续的分数,比如75分、85分等,能够识别部分正确的答案,但有时候判分不够准确。

HERO的创新之处在于巧妙地结合了这两种方法的优势。它采用了一种叫做"分层标准化"的技术,简单来说就是先用严格的验证器将所有答案分为"正确"和"错误"两个大组,然后在每个组内部使用奖励模型进行细致的排名。这就像是先按照及格和不及格将学生分组,然后在及格组内部按照具体分数排序,在不及格组内部也按照接近程度排序。

这种方法还引入了"方差感知加权"机制。当AI面对简单问题时,大部分答案要么全对要么全错,这种情况下学习价值有限。但遇到复杂问题时,不同答案的质量差异很大,这时候就需要给予更多关注。HERO会自动识别这些"有挑战性"的问题,并在训练中给它们分配更高的权重,确保AI把更多精力花在真正困难的推理任务上。

为了验证这个方法的有效性,研究团队进行了全面的实验测试。他们构建了三种不同的训练数据集:容易验证的数学题(答案格式标准,容易自动检查)、难以验证的数学题(答案格式灵活,需要人工判断),以及两种题目的混合集。实验涵盖了多个知名的数学推理基准测试,包括MATH500、AMC、Minerva和Olympiad等。

实验结果令人振奋。在使用Qwen3-4B-Base模型的测试中,当训练数据为容易验证的样本时,HERO在容易验证任务上的平均得分达到62.0,显著超过了仅使用奖励模型的56.4分和仅使用规则验证器的58.3分。更重要的是,在难以验证的任务上,HERO的优势更加明显,得分高达66.3,比奖励模型方法高出11.7分,比规则验证器方法高出9.2分。

当训练数据包含难以验证的样本时,传统的规则验证器表现尤其糟糕,因为它们面对格式不标准的正确答案时往往束手无策。在这种情况下,HERO仍能保持稳定的性能提升,证明了其强大的适应性和鲁棒性。

研究团队还进行了详细的消融实验,深入分析了HERO各个组件的贡献。他们发现,在负样本(错误答案)组内提供密集的奖励信号比在正样本组内更为重要。这个发现很有道理:对于正确答案,主要目标是确认其正确性;但对于错误答案,区分"完全错误"和"部分正确"对学习更有价值。

实验还显示,奖励范围的选择对性能有重要影响。对于容易验证的任务,较小的奖励范围(如0.05)效果最好,因为规则验证器的精确性使得较紧的范围能够减少噪声。对于混合任务,较大的奖励范围(如0.1或0.2)能提供更丰富的信号,帮助模型更好地学习复杂情况。

令人惊讶的是,使用更大的奖励模型(从7B增加到72B参数)并没有带来显著的性能提升,这表明HERO的优势主要来自其巧妙的混合奖励设计,而不是简单的模型规模扩大。这个发现对实际应用很有价值,因为它意味着可以在不大幅增加计算成本的情况下获得性能提升。

研究团队还与其他先进方法进行了对比。他们测试了基于生成模型的验证器(如TIGER-Lab的通用验证器)和大型语言模型验证器(如Qwen2.5-7B-Instruct),结果显示HERO在所有测试场景中都保持了领先优势。这证明了结构化奖励整合比单纯增加验证器规模更为有效。

为了更深入地理解奖励模型的行为,研究团队分析了它在不同难度任务上的表现。他们发现,在难以验证的任务上,奖励模型容易出现"奖励欺骗"现象,即快速提高奖励分数但实际数学准确性却在下降。这就像学生学会了考试技巧但没有真正掌握知识。HERO通过将奖励模型的输出锚定到验证器定义的正确性群组中,有效避免了这种问题。

研究还揭示了一个有趣的现象:密集负样本奖励比密集正样本奖励更重要。当AI产生错误答案时,能够区分"完全胡说八道"和"思路基本正确但细节有误"对学习非常有价值。而对于正确答案,主要的区别只是表达方式和完整性,重要性相对较低。

在可扩展性方面,HERO在不同规模的模型上都显示出了一致的改进效果。无论是在相对较强的Qwen3-4B-Base上,还是在基线较弱的OctoThinker-8B-Hybrid-Base上,HERO都能带来显著的性能提升。这种一致性表明该方法具有良好的普遍适用性。

值得注意的是,HERO不仅在数学推理任务上表现出色,其设计理念也可能适用于其他需要精确性和创造性平衡的任务。比如在代码生成、逻辑推理、甚至某些创意写作任务中,都存在类似的"严格性"与"灵活性"之间的张力。

从技术实现角度看,HERO引入的计算开销是可控的。虽然需要同时运行验证器和奖励模型,但这种额外成本在现代GPU集群环境下是可以接受的。而且,由于方法能够更高效地利用训练数据,实际上可能减少达到相同性能水平所需的总训练时间。

这项研究也为未来的发展指明了方向。研究团队指出,可以进一步改进验证器的覆盖范围,开发更好的难度估计器,以及探索过程级别的奖励信号(不仅仅关注最终答案,还要评估解题步骤的质量)。这些改进方向都有可能进一步提升AI的数学推理能力。

从更宏观的角度看,这项研究反映了AI发展中的一个重要趋势:从粗放式的规模扩张转向精细化的训练优化。与其简单地增加模型参数或训练数据,不如深入思考如何设计更好的训练信号和学习机制。HERO正是这种思路的典型体现。

说到底,HERO就像是为AI找到了一位既严格又灵活的好老师。这位老师知道什么时候该坚持标准,什么时候该给予鼓励,能够根据学生的不同情况调整教学策略。通过这种精心设计的教学方法,AI在数学推理方面的表现得到了显著提升,为构建更强大、更可靠的人工智能系统迈出了重要一步。

Q&A

Q1:HERO混合奖励优化方法具体是如何工作的?

A:HERO采用分层标准化技术,先用严格的验证器将答案分为正确和错误两组,然后在每组内部用奖励模型进行细致排名。同时引入方差感知加权,自动识别有挑战性的问题并给予更高权重,确保AI把更多精力花在真正困难的推理任务上。

Q2:为什么传统的AI数学训练方法效果不好?

A:传统方法要么过于严格(只认标准答案格式,正确但格式不同的答案也被判零分),要么过于宽松(评分随意,错误答案可能得高分)。这两种极端都不利于AI真正学会数学推理,HERO正是为了解决这个问题而设计的。

Q3:HERO在实际测试中的效果如何?

A:在Qwen3-4B-Base模型测试中,HERO在难以验证任务上得分66.3,比奖励模型方法高11.7分,比规则验证器高9.2分。在各种数学推理基准测试中都显示出显著优势,且在不同规模模型上都有一致的改进效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

美以空袭伊朗,阿拉伯国家联盟发声:“阿拉伯-以色列冲突升级为全面地区战争的时刻”

环球网资讯
2026-03-01 11:00:18
真相大白!王曼昱丢冠原因曝光,是打不过莎莎吗?张继科早有预言

真相大白!王曼昱丢冠原因曝光,是打不过莎莎吗?张继科早有预言

曹说体育
2026-03-01 22:16:15
高兴太早,中国男篮大胜中国台北队,却收坏消息,打日本队要小心

高兴太早,中国男篮大胜中国台北队,却收坏消息,打日本队要小心

宗介说体育
2026-03-01 18:19:54
一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

流苏晚晴
2026-03-01 16:54:18
伊朗建议民众离开德黑兰

伊朗建议民众离开德黑兰

财联社
2026-02-28 21:58:42
胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

参考消息
2026-03-01 20:06:21
超20000名旅客滞留!“迪拜机场已经没有航班了”,阿联酋宣布:承担所有旅客滞留费用

超20000名旅客滞留!“迪拜机场已经没有航班了”,阿联酋宣布:承担所有旅客滞留费用

江西工人报
2026-03-01 22:27:25
伊朗称袭击致美军伤亡560人

伊朗称袭击致美军伤亡560人

财联社
2026-03-02 00:54:12
美军公布伤亡情况

美军公布伤亡情况

环球时报国际
2026-03-02 00:10:13
48小时送走哈梅内伊:令人恐怖的技术代差,现代战争的形态变了

48小时送走哈梅内伊:令人恐怖的技术代差,现代战争的形态变了

黑企鹅观察
2026-03-01 14:40:34
“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

每日经济新闻
2026-02-28 14:37:58
大满贯不和谐一幕:王曼昱2-4孙颖莎 比输球可怕是观众一边倒支持

大满贯不和谐一幕:王曼昱2-4孙颖莎 比输球可怕是观众一边倒支持

侃球熊弟
2026-03-01 20:27:26
中国军号:对于那一天我们不期待,但绝不惧怕!

中国军号:对于那一天我们不期待,但绝不惧怕!

潇湘晨报
2026-03-01 15:18:15
女单颁奖!王曼昱领奖杯开心,孙颖莎获全程欢呼,展可爱一幕!

女单颁奖!王曼昱领奖杯开心,孙颖莎获全程欢呼,展可爱一幕!

篮球资讯达人
2026-03-01 20:51:07
回家了!张云鹏已抵达老家吉林!认完亲还将回加拿大高洋回应原因

回家了!张云鹏已抵达老家吉林!认完亲还将回加拿大高洋回应原因

离离言几许
2026-03-01 23:21:02
创纪录!外资,突然大抛售!全球“最牛”股市,发生了什么?

创纪录!外资,突然大抛售!全球“最牛”股市,发生了什么?

数据宝
2026-03-01 18:36:28
同事借我的奥迪回老家,我拔了ETC卡,果然,2小时后他就打来电话

同事借我的奥迪回老家,我拔了ETC卡,果然,2小时后他就打来电话

小李子体育
2026-03-02 01:20:40
伊朗代表直接警告美方:我建议你保持礼貌!

伊朗代表直接警告美方:我建议你保持礼貌!

看看新闻Knews
2026-03-01 17:11:05
哈梅内伊身亡,布达诺夫:俄罗斯会接受美国为乌克兰提供的安全保证 | 狼叔看世界

哈梅内伊身亡,布达诺夫:俄罗斯会接受美国为乌克兰提供的安全保证 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
为全球股市打样,沙特埃及股市开盘大跌5%,但很快反弹

为全球股市打样,沙特埃及股市开盘大跌5%,但很快反弹

上观新闻
2026-03-01 20:07:17
2026-03-02 06:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
艺术
数码
公开课
军事航空

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

艺术要闻

清代豪门过年仪式感

数码要闻

曝苹果WWDC 26将推Core AI框架取代Core ML并公布多项AI功能

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版