网易首页 > 网易号 > 正文 申请入驻

Open AI 新论文:通过“过程监督”来改进数学推理

0
分享至

本文经授权转载自「图灵社区公众号(ID:ituring_book)」

英文原文链接:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

我们训练了一个模型,通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。

除了提高与结果监督相关的性能外,过程监督在对齐上也有一个非常重要的好处:它能直接训练模型产生被人类认可的思维链。


介绍

近年来,大型语言模型在执行复杂的多步推理的能力方面有了很大的提高。然而,即使是最先进的模型仍然会产生逻辑错误,我们通常称为幻觉(hallucinations)。减轻幻觉是构建与人类价值观和道德标准对齐的通用人工智能 AGI (aligned AGI)的关键一步。

其中的 aligned 指的是人工智能的目标与人类价值观和道德准则保持一致或对齐。 如果超级智能的目标不一致或不被对齐,可能会有损人类利益,甚至有造成灾难的风险。 所以,研究人工智能安全性的专家们提出,在开发高级人工智能和通用人工智能时,需要解决"对齐问题"(aligned problem),确保其目标与人类价值观一致,避免智能系统由于目标不一致而产生的潜在危害。

我们可以通过“结果监督”或“过程监督”的方式训练奖励模型来检测幻觉。“结果监督”根据最终结果提供反馈,“过程监督”为思维链中的每一步提供反馈。在之前的工作[1]的基础上,我们使用MATH数据集[2]作为我们的测试平台,详细地比较了这两种方法。我们发现,即使从结果来判断,过程监督也可以显著提高性能。为鼓励相关研究,我们发布了完整的过程监督数据集。


对齐影响

过程监督比结果监督有几个对齐优势。因为过程中的每个步骤都受到精确的监督,它可以直接奖励模型遵循与人类一致的思维链。过程监督也更有可能产生可解释的推理,因为它鼓励模型遵循人类批准的过程。相比之下,结果监督可能会奖励非对齐的过程,而且通常难以审查。

在某些情况下,更安全的人工智能系统方法可能会导致性能下降,这种代价被称为“对齐税”。一般来说,任何对齐税都可能妨碍对齐方法的采用,这是使用最高性能模型所带来的压力。我们下面的结果表明,过程监督实际上会产生负对齐税,至少在数学领域是这样。这可能会让我们考虑更多使用过程监督,我们认为这会产生更积极积极的对齐副作用。

"负对齐税"这个说法的意思是,采用某种方法并没有产生预期的性能损失,反而导致了性能提高。
本节的主要观点是: 1) 过程监督相比结果监督有多个对齐优势。 2) 过程监督可以直接奖励模型遵循与人类一致的思维链,并且更易产生可解释的推理。 3) 结果监督可能奖励非对齐的过程,且难以审查。 4) 更安全的人工智能系统方法可能会导致性能下降,这被称为“对齐税”。 5) “对齐税”可能阻碍对齐方法的采用,但我们的结果显示过程监督实际产生负对齐税。 6) 这可能增加过程监督的采用,并产生积极的对齐副作用。


解决数学问题

我们使用MATH测试集里面的问题来评估我们的“过程监督”和“结果监督”奖励模型。我们为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。

该图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。

横轴是选择的解答方案数量,纵轴是正确答案百分比。

过程监督奖励模型不仅在所有方面表现更好,而且随着每个问题解决答案的增多,性能差距会扩大。这表明过程监督奖励模型更可靠。

探索3个类别中的示例:

1、真正例子(true positives)

2、真负例子(true negatives)

3、假正例子(false positives)

这三个概念都是机器学习和统计学中的重要指标。 真正例子和真负例子都表示判断或检测的准确性,因为两者的判断结果都是正确的。假正例子表示判断的错误,将负例判断为正例,会产生误报。。 这三者经常一起使用来评估模型或判断方法的性能,主要指标有: 精确率(Precision):真正例子数/(真正例子数+假正例子数),表示正例判断的准确度。 召回率(Recall):真正例子数/真实的正例总数,表示找到真实的正例的比例。 F1值:2*(精确率*召回率)/(精确率+召回率),综合考虑精确率和召回率。

Open AI 展示了10个数学问题和对应的解决方案,还附上了奖励模型的优缺点评价。这10个数学问题包括化简三角函数、多项式分解、十进制转换、概率问题、平均值计算、数列求值等。

如化简 tan⁡100∘+4sin⁡100∘。

这个困难的三角函数问题需要连续应用几个不太明显的恒等式。大多数解决方案尝试都会失败,因为很难选择哪些恒等式实际上是有用的。虽然GPT-4通常无法解决这个问题(只有0.1%的解决方案尝试能得到正确答案),但奖励模型正确地认识到这个解决方案是有效的。

如多项式分解。

在这里,GPT-4成功执行了一系列复杂的多项式因式分解。第5步中使用Sophie-Germain恒等式是一个重要的步骤,非常富有洞察力。

以及该问题:找到唯一的奇数整数 t,满足0 < t < 23且t + 2 在 modulo 23 意义下为 t 的反元素。

在第7步和第8步中,GPT-4开始进行猜测和检查。这是一个模型可能出现错误判断的常见场景,即断言某个猜测十分成功,而实际上并非如此。但在此例中,奖励模型验证了每一步,并判断这条思维链是正确的。

更多问题可见 OpenAI 论文。

总而言之,

1)结果监督模型容易在复杂的问题上产生错误判断和“幻觉”,它们难以理解问题解决的完整过程。而过程监督模型可以验证每一步思维,确保最终得到正确的解决方案,防止产生错误判断。

2) 在猜测和检查不确定的推理方法中,结果监督模型很难判断某个猜测是否真的“成功”,容易产生判断失误。而过程监督模型可以评估每一步推理的有效性,判断思维链的正确性,避免产生错误判断。

3) 过程监督模型可以鼓励模型学习明确、可解释的推理步骤,而不仅仅是最终结果。这可以使模型得出的解决方案更加可依赖和可信任。

4) 随着问题难度的增加,结果监督模型的判断误差也在增加,其优势减小。而过程监督模型不会出现这一问题,其判断精度更加稳定可靠。

5) 过程监督模型可以发现和纠正结果监督模型难以发现的错误,使模型有效学习到解决复杂问题所需的知识和推理技能。

综上,过程监督模型相比结果监督模型在判断复杂问题上更加准确可靠,可以指导模型学习到解决问题所需的完整知识,而不仅是只有最终的结果,其优势也随问题难度增加而增强。它通过评估每一步推理来发现并纠正错误判断,避免模型产生“幻觉”。

目前尚不清楚这些结果将在多大程度上推广到数学之外的其他领域,我们认为探索过程监督在其他领域的影响对于未来的工作很重要。如果这些结果具有普遍性,我们可能会发现过程监督为我们提供了两全其美的方法——一种比结果监督更高效、更一致的方法。

参考


  1. Uesato, J., Kushman N., Kumar R., Song F., Siegel N., Wang L., Creswell A., Irving G. and Higgins, I., 2022. Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275.↩︎



  2. Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D. and Steinhardt J., 2021. Measuring Mathematical Problem Solving With the MATH Dataset. arXiv preprint arXiv:2103.03874.↩︎



  3. Ouyang L., Wu J., Jiang X., Almedia D., Wainwright C.L., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., Schulman J., Hilton J., Kelton F., Miller L., Simens M., Askell A., Welinder P., Christiano P., Leike J. and Lowe R., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.↩︎


作者

Karl Cobbe;Hunter Lightman;Vineet Kosaraju;Yura Burda;Harri Edwards;Jan Leike;Ilya Sutskever;

致谢

贡献者们:Bowen Baker, Teddy Lee, John Schulman, Greg Brockman, Kendra Rimbach, Hannah Wong, Thomas Degry

本文经授权转载「图灵社区」,如需转载,请联系他们的工作人员。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
燃气灶致癌,再添实锤!斯坦福大学:即使关着炉子,也能释放一级致癌物,患癌风险飙升;仅烹饪1小时,NO₂就超标,每年致1.9万人死亡

燃气灶致癌,再添实锤!斯坦福大学:即使关着炉子,也能释放一级致癌物,患癌风险飙升;仅烹饪1小时,NO₂就超标,每年致1.9万人死亡

梅斯医学
2026-05-31 07:55:29
七年统治梦碎!乌克兰民众亲手选出的总统,终于将国家拖入深渊?

七年统治梦碎!乌克兰民众亲手选出的总统,终于将国家拖入深渊?

阿器谈史
2026-05-29 14:13:01
亚历山大和主帅公然批评!拿着顶薪打得不如蓝领,球队还当非卖品

亚历山大和主帅公然批评!拿着顶薪打得不如蓝领,球队还当非卖品

你的篮球频道
2026-06-01 08:01:27
新加坡防长写打油诗总结"香会" 现场用中文朗读

新加坡防长写打油诗总结"香会" 现场用中文朗读

看看新闻Knews
2026-05-31 18:36:09
湖北襄阳“割四赔五”事件后续:主播翻车,官方发声网上争执不断

湖北襄阳“割四赔五”事件后续:主播翻车,官方发声网上争执不断

Mr王的饭后茶
2026-05-31 23:17:57
男演员宣布结婚,前女友发文控诉

男演员宣布结婚,前女友发文控诉

新快报新闻
2026-05-31 14:47:03
女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

映射生活的身影
2026-05-31 21:37:09
襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

襄阳割四赔五新后续:大批麦客连夜撤走,当地部门紧急出手整改

奇思妙想草叶君
2026-05-31 23:01:42
闲鱼读取用户手机内文物照片上架售卖?陕历博“镇馆之宝”被标价6000元,平台回应

闲鱼读取用户手机内文物照片上架售卖?陕历博“镇馆之宝”被标价6000元,平台回应

上游新闻
2026-06-01 09:45:05
军事 | 普京将此残骸交于美方,到底什么意思?

军事 | 普京将此残骸交于美方,到底什么意思?

新民周刊
2026-06-01 09:08:31
做好事还是做坏事?男子丢了手机献完血顺走护士手机,民警12小时内将其抓获

做好事还是做坏事?男子丢了手机献完血顺走护士手机,民警12小时内将其抓获

大风新闻
2026-06-01 10:51:03
成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

赴一场山海啊
2026-06-01 00:27:25
6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

我爱英超
2026-06-01 07:34:53
包揽赛季三冠!29岁樊振东独取2分 率队问鼎德甲+队史首次斩3冠王

包揽赛季三冠!29岁樊振东独取2分 率队问鼎德甲+队史首次斩3冠王

风过乡
2026-05-31 22:21:30
3死惨剧!脱把40秒追尾,22个雷达为何没“看”见死劫?

3死惨剧!脱把40秒追尾,22个雷达为何没“看”见死劫?

趣味萌宠的日常
2026-05-31 16:28:10
关停3年后天涯社区今天重启,运营方回应“网页打不开”:官网DNS还未生效;你写的帖子、认识的好友、收藏的好文都在

关停3年后天涯社区今天重启,运营方回应“网页打不开”:官网DNS还未生效;你写的帖子、认识的好友、收藏的好文都在

荔枝新闻
2026-06-01 11:07:22
乌双线双杀,俄当日战损1560人,川普又开始吹捧乌克兰

乌双线双杀,俄当日战损1560人,川普又开始吹捧乌克兰

史政先锋
2026-05-31 16:46:18
云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

云南瑞丽:请广大市民保持冷静,不恐慌、不聚集

黄河新闻网吕梁
2026-06-01 10:43:02
上海博物院的水平比台北博物院差了100倍

上海博物院的水平比台北博物院差了100倍

回旋镖
2026-05-31 16:52:14
网红边牧被偷后续!对方慌了,拦车拉车门试图求和,狗主人被气哭

网红边牧被偷后续!对方慌了,拦车拉车门试图求和,狗主人被气哭

削桐作琴
2026-05-31 19:45:35
2026-06-01 12:16:49
CSDN incentive-icons
CSDN
成就一亿技术人
26595文章数 242292关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

健康
教育
房产
艺术
军事航空

尝试干细胞疗法如何避免踩坑?

教育要闻

打印准考证!2026山东高考|准考证打印全流程(含时间 + 入口 + 问题解答)

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

艺术要闻

吴镇写竹,清清爽爽

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版