网易首页 > 网易号 > 正文 申请入驻

Meta实验室新突破:让AI数学推理更聪明的"混合奖励"训练法

0
分享至


这项由Meta人工智能实验室(FAIR)的陶雷天、伊利亚·库利科夫等研究人员与威斯康星大学麦迪逊分校合作完成的研究,发表于2025年10月,论文编号为arXiv:2510.07242v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

教AI做数学题就像训练一个学生,但现在的方法存在一个根本问题:要么太严格,要么太宽松。现有的训练方式通常采用两种截然不同的评判标准。第一种就像那种极其苛刻的数学老师,只认标准答案,哪怕你的解题思路完全正确、只是最后答案格式稍有不同,也会被判为零分。第二种则像那种过分宽松的老师,给分很随意,有时候错误答案也能得高分,正确答案反而分数不高。

Meta的研究团队意识到,这两种极端方式都不利于AI真正学会数学推理。他们提出了一个巧妙的解决方案,称为HERO(混合集成奖励优化),这个方法就像找到了严格老师和宽松老师之间的完美平衡点。

当前AI数学训练面临的核心困境可以用一个简单的例子来说明。假设AI要解决一道数学题,答案是"2x+3",但AI给出的答案是"3+2x"。从数学角度看,这两个表达式完全等价,但传统的严格验证系统会因为顺序不同而判定为错误。相反,如果使用过于宽松的评分模型,它可能会给一些看似合理但实际错误的答案打高分,误导AI的学习方向。

研究团队发现,目前的AI训练主要依赖两种奖励信号。第一种是"可验证奖励",就像标准化考试的答题卡一样,只有0分或满分,没有中间地带。这种方法虽然准确,但过于严苛,很多合理的答案因为格式问题被错误地判为零分。第二种是"奖励模型",它能给出连续的分数,比如75分、85分等,能够识别部分正确的答案,但有时候判分不够准确。

HERO的创新之处在于巧妙地结合了这两种方法的优势。它采用了一种叫做"分层标准化"的技术,简单来说就是先用严格的验证器将所有答案分为"正确"和"错误"两个大组,然后在每个组内部使用奖励模型进行细致的排名。这就像是先按照及格和不及格将学生分组,然后在及格组内部按照具体分数排序,在不及格组内部也按照接近程度排序。

这种方法还引入了"方差感知加权"机制。当AI面对简单问题时,大部分答案要么全对要么全错,这种情况下学习价值有限。但遇到复杂问题时,不同答案的质量差异很大,这时候就需要给予更多关注。HERO会自动识别这些"有挑战性"的问题,并在训练中给它们分配更高的权重,确保AI把更多精力花在真正困难的推理任务上。

为了验证这个方法的有效性,研究团队进行了全面的实验测试。他们构建了三种不同的训练数据集:容易验证的数学题(答案格式标准,容易自动检查)、难以验证的数学题(答案格式灵活,需要人工判断),以及两种题目的混合集。实验涵盖了多个知名的数学推理基准测试,包括MATH500、AMC、Minerva和Olympiad等。

实验结果令人振奋。在使用Qwen3-4B-Base模型的测试中,当训练数据为容易验证的样本时,HERO在容易验证任务上的平均得分达到62.0,显著超过了仅使用奖励模型的56.4分和仅使用规则验证器的58.3分。更重要的是,在难以验证的任务上,HERO的优势更加明显,得分高达66.3,比奖励模型方法高出11.7分,比规则验证器方法高出9.2分。

当训练数据包含难以验证的样本时,传统的规则验证器表现尤其糟糕,因为它们面对格式不标准的正确答案时往往束手无策。在这种情况下,HERO仍能保持稳定的性能提升,证明了其强大的适应性和鲁棒性。

研究团队还进行了详细的消融实验,深入分析了HERO各个组件的贡献。他们发现,在负样本(错误答案)组内提供密集的奖励信号比在正样本组内更为重要。这个发现很有道理:对于正确答案,主要目标是确认其正确性;但对于错误答案,区分"完全错误"和"部分正确"对学习更有价值。

实验还显示,奖励范围的选择对性能有重要影响。对于容易验证的任务,较小的奖励范围(如0.05)效果最好,因为规则验证器的精确性使得较紧的范围能够减少噪声。对于混合任务,较大的奖励范围(如0.1或0.2)能提供更丰富的信号,帮助模型更好地学习复杂情况。

令人惊讶的是,使用更大的奖励模型(从7B增加到72B参数)并没有带来显著的性能提升,这表明HERO的优势主要来自其巧妙的混合奖励设计,而不是简单的模型规模扩大。这个发现对实际应用很有价值,因为它意味着可以在不大幅增加计算成本的情况下获得性能提升。

研究团队还与其他先进方法进行了对比。他们测试了基于生成模型的验证器(如TIGER-Lab的通用验证器)和大型语言模型验证器(如Qwen2.5-7B-Instruct),结果显示HERO在所有测试场景中都保持了领先优势。这证明了结构化奖励整合比单纯增加验证器规模更为有效。

为了更深入地理解奖励模型的行为,研究团队分析了它在不同难度任务上的表现。他们发现,在难以验证的任务上,奖励模型容易出现"奖励欺骗"现象,即快速提高奖励分数但实际数学准确性却在下降。这就像学生学会了考试技巧但没有真正掌握知识。HERO通过将奖励模型的输出锚定到验证器定义的正确性群组中,有效避免了这种问题。

研究还揭示了一个有趣的现象:密集负样本奖励比密集正样本奖励更重要。当AI产生错误答案时,能够区分"完全胡说八道"和"思路基本正确但细节有误"对学习非常有价值。而对于正确答案,主要的区别只是表达方式和完整性,重要性相对较低。

在可扩展性方面,HERO在不同规模的模型上都显示出了一致的改进效果。无论是在相对较强的Qwen3-4B-Base上,还是在基线较弱的OctoThinker-8B-Hybrid-Base上,HERO都能带来显著的性能提升。这种一致性表明该方法具有良好的普遍适用性。

值得注意的是,HERO不仅在数学推理任务上表现出色,其设计理念也可能适用于其他需要精确性和创造性平衡的任务。比如在代码生成、逻辑推理、甚至某些创意写作任务中,都存在类似的"严格性"与"灵活性"之间的张力。

从技术实现角度看,HERO引入的计算开销是可控的。虽然需要同时运行验证器和奖励模型,但这种额外成本在现代GPU集群环境下是可以接受的。而且,由于方法能够更高效地利用训练数据,实际上可能减少达到相同性能水平所需的总训练时间。

这项研究也为未来的发展指明了方向。研究团队指出,可以进一步改进验证器的覆盖范围,开发更好的难度估计器,以及探索过程级别的奖励信号(不仅仅关注最终答案,还要评估解题步骤的质量)。这些改进方向都有可能进一步提升AI的数学推理能力。

从更宏观的角度看,这项研究反映了AI发展中的一个重要趋势:从粗放式的规模扩张转向精细化的训练优化。与其简单地增加模型参数或训练数据,不如深入思考如何设计更好的训练信号和学习机制。HERO正是这种思路的典型体现。

说到底,HERO就像是为AI找到了一位既严格又灵活的好老师。这位老师知道什么时候该坚持标准,什么时候该给予鼓励,能够根据学生的不同情况调整教学策略。通过这种精心设计的教学方法,AI在数学推理方面的表现得到了显著提升,为构建更强大、更可靠的人工智能系统迈出了重要一步。

Q&A

Q1:HERO混合奖励优化方法具体是如何工作的?

A:HERO采用分层标准化技术,先用严格的验证器将答案分为正确和错误两组,然后在每组内部用奖励模型进行细致排名。同时引入方差感知加权,自动识别有挑战性的问题并给予更高权重,确保AI把更多精力花在真正困难的推理任务上。

Q2:为什么传统的AI数学训练方法效果不好?

A:传统方法要么过于严格(只认标准答案格式,正确但格式不同的答案也被判零分),要么过于宽松(评分随意,错误答案可能得高分)。这两种极端都不利于AI真正学会数学推理,HERO正是为了解决这个问题而设计的。

Q3:HERO在实际测试中的效果如何?

A:在Qwen3-4B-Base模型测试中,HERO在难以验证任务上得分66.3,比奖励模型方法高11.7分,比规则验证器高9.2分。在各种数学推理基准测试中都显示出显著优势,且在不同规模模型上都有一致的改进效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东迎来中到大雪,滨州将降至零下!

山东迎来中到大雪,滨州将降至零下!

嗨0543
2025-11-12 19:15:46
2025地球小姐澳门冠军陈思蓓,身高170,纯天然颜值,当之无愧

2025地球小姐澳门冠军陈思蓓,身高170,纯天然颜值,当之无愧

情感大头说说
2025-11-12 13:33:51
“一觉醒来,大学变高中了”,当本升高成为现实,大学生天都塌了

“一觉醒来,大学变高中了”,当本升高成为现实,大学生天都塌了

妍妍教育日记
2025-11-12 20:05:44
为了“掏空”老百姓的钱袋子,编造出来的5大谎言,谁信谁倒霉?

为了“掏空”老百姓的钱袋子,编造出来的5大谎言,谁信谁倒霉?

卷史
2025-11-12 15:58:26
男篮世预赛集训大名单出炉!周琦张镇麟领衔:徐杰赵继伟双双落选

男篮世预赛集训大名单出炉!周琦张镇麟领衔:徐杰赵继伟双双落选

篮球快餐车
2025-11-13 06:04:49
哪种油最不健康?是大豆油吗?坦白说:这4种油确实要少吃

哪种油最不健康?是大豆油吗?坦白说:这4种油确实要少吃

涵豆说娱
2025-11-06 13:50:21
当看到63岁的岳红和张凯丽同框,才明白穿着得体的含金量有多高

当看到63岁的岳红和张凯丽同框,才明白穿着得体的含金量有多高

花心电影
2025-11-12 22:36:34
美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

小乔古装汉服
2025-09-24 07:20:03
站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

空间设计
2025-11-09 12:15:02
陈志的可怕,不在他有多狠,而在于他一路顺风顺水

陈志的可怕,不在他有多狠,而在于他一路顺风顺水

热点菌本君
2025-11-10 15:45:57
王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

蜡笔小小子
2025-11-08 14:18:03
苹果新品突然官宣:11月14日,全球发售!

苹果新品突然官宣:11月14日,全球发售!

Q科技基地
2025-11-12 14:38:31
用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

爱范儿
2025-11-11 14:23:37
当中国科考船停靠在库克群岛,旧秩序被海风吹动

当中国科考船停靠在库克群岛,旧秩序被海风吹动

丁刚看世界
2025-11-11 11:48:17
最新发现:炎症如何“叫醒”癌细胞?做好5件事阻断它

最新发现:炎症如何“叫醒”癌细胞?做好5件事阻断它

猫大夫医学科普
2025-11-13 06:47:17
世预赛开战 6天之内:欧洲11队直通世界杯 5队赢球=提前出线

世预赛开战 6天之内:欧洲11队直通世界杯 5队赢球=提前出线

叶青足球世界
2025-11-12 08:39:06
这下真的解释不清了!广东女子玩手机睡着,醒来手变“铁钳”

这下真的解释不清了!广东女子玩手机睡着,醒来手变“铁钳”

西莫的艺术宫殿
2025-11-12 15:13:56
马筱梅穿miumiu孕肚显怀了,她累的直不起腰,汪小菲心疼的搂着她

马筱梅穿miumiu孕肚显怀了,她累的直不起腰,汪小菲心疼的搂着她

小咪侃娱圈
2025-11-12 14:01:05
真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

180视角
2025-11-12 12:05:43
快船官宣!比尔惨遭髋部骨折赛季报销:接受手术至少伤停6-9个月

快船官宣!比尔惨遭髋部骨折赛季报销:接受手术至少伤停6-9个月

追球者
2025-11-13 04:42:37
2025-11-13 07:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6206文章数 541关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

俄外交部:乌方停止与俄谈判说明其缺乏达成和平意愿

头条要闻

俄外交部:乌方停止与俄谈判说明其缺乏达成和平意愿

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

健康
教育
旅游
艺术
亲子

血液科专家揭秘白血病七大误区

教育要闻

傲慢与偏见英文原版语音课11:我对您的神经很尊重

旅游要闻

638栋楼的灯光秀,与滕王阁的千年对话

艺术要闻

刚刚、贵州突然流出一批照片,全世界都吃惊了....

亲子要闻

男孩总是躁怒崩溃,送去医院就诊,被确诊的却是孩子父母

无障碍浏览 进入关怀版