网易首页 > 网易号 > 正文 申请入驻

Open AI 新论文:通过“过程监督”来改进数学推理

0
分享至

本文经授权转载自「图灵社区公众号(ID:ituring_book)」

英文原文链接:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

我们训练了一个模型,通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。

除了提高与结果监督相关的性能外,过程监督在对齐上也有一个非常重要的好处:它能直接训练模型产生被人类认可的思维链。


介绍

近年来,大型语言模型在执行复杂的多步推理的能力方面有了很大的提高。然而,即使是最先进的模型仍然会产生逻辑错误,我们通常称为幻觉(hallucinations)。减轻幻觉是构建与人类价值观和道德标准对齐的通用人工智能 AGI (aligned AGI)的关键一步。

其中的 aligned 指的是人工智能的目标与人类价值观和道德准则保持一致或对齐。 如果超级智能的目标不一致或不被对齐,可能会有损人类利益,甚至有造成灾难的风险。 所以,研究人工智能安全性的专家们提出,在开发高级人工智能和通用人工智能时,需要解决"对齐问题"(aligned problem),确保其目标与人类价值观一致,避免智能系统由于目标不一致而产生的潜在危害。

我们可以通过“结果监督”或“过程监督”的方式训练奖励模型来检测幻觉。“结果监督”根据最终结果提供反馈,“过程监督”为思维链中的每一步提供反馈。在之前的工作[1]的基础上,我们使用MATH数据集[2]作为我们的测试平台,详细地比较了这两种方法。我们发现,即使从结果来判断,过程监督也可以显著提高性能。为鼓励相关研究,我们发布了完整的过程监督数据集。


对齐影响

过程监督比结果监督有几个对齐优势。因为过程中的每个步骤都受到精确的监督,它可以直接奖励模型遵循与人类一致的思维链。过程监督也更有可能产生可解释的推理,因为它鼓励模型遵循人类批准的过程。相比之下,结果监督可能会奖励非对齐的过程,而且通常难以审查。

在某些情况下,更安全的人工智能系统方法可能会导致性能下降,这种代价被称为“对齐税”。一般来说,任何对齐税都可能妨碍对齐方法的采用,这是使用最高性能模型所带来的压力。我们下面的结果表明,过程监督实际上会产生负对齐税,至少在数学领域是这样。这可能会让我们考虑更多使用过程监督,我们认为这会产生更积极积极的对齐副作用。

"负对齐税"这个说法的意思是,采用某种方法并没有产生预期的性能损失,反而导致了性能提高。
本节的主要观点是: 1) 过程监督相比结果监督有多个对齐优势。 2) 过程监督可以直接奖励模型遵循与人类一致的思维链,并且更易产生可解释的推理。 3) 结果监督可能奖励非对齐的过程,且难以审查。 4) 更安全的人工智能系统方法可能会导致性能下降,这被称为“对齐税”。 5) “对齐税”可能阻碍对齐方法的采用,但我们的结果显示过程监督实际产生负对齐税。 6) 这可能增加过程监督的采用,并产生积极的对齐副作用。


解决数学问题

我们使用MATH测试集里面的问题来评估我们的“过程监督”和“结果监督”奖励模型。我们为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。

该图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。

横轴是选择的解答方案数量,纵轴是正确答案百分比。

过程监督奖励模型不仅在所有方面表现更好,而且随着每个问题解决答案的增多,性能差距会扩大。这表明过程监督奖励模型更可靠。

探索3个类别中的示例:

1、真正例子(true positives)

2、真负例子(true negatives)

3、假正例子(false positives)

这三个概念都是机器学习和统计学中的重要指标。 真正例子和真负例子都表示判断或检测的准确性,因为两者的判断结果都是正确的。假正例子表示判断的错误,将负例判断为正例,会产生误报。。 这三者经常一起使用来评估模型或判断方法的性能,主要指标有: 精确率(Precision):真正例子数/(真正例子数+假正例子数),表示正例判断的准确度。 召回率(Recall):真正例子数/真实的正例总数,表示找到真实的正例的比例。 F1值:2*(精确率*召回率)/(精确率+召回率),综合考虑精确率和召回率。

Open AI 展示了10个数学问题和对应的解决方案,还附上了奖励模型的优缺点评价。这10个数学问题包括化简三角函数、多项式分解、十进制转换、概率问题、平均值计算、数列求值等。

如化简 tan⁡100∘+4sin⁡100∘。

这个困难的三角函数问题需要连续应用几个不太明显的恒等式。大多数解决方案尝试都会失败,因为很难选择哪些恒等式实际上是有用的。虽然GPT-4通常无法解决这个问题(只有0.1%的解决方案尝试能得到正确答案),但奖励模型正确地认识到这个解决方案是有效的。

如多项式分解。

在这里,GPT-4成功执行了一系列复杂的多项式因式分解。第5步中使用Sophie-Germain恒等式是一个重要的步骤,非常富有洞察力。

以及该问题:找到唯一的奇数整数 t,满足0 < t < 23且t + 2 在 modulo 23 意义下为 t 的反元素。

在第7步和第8步中,GPT-4开始进行猜测和检查。这是一个模型可能出现错误判断的常见场景,即断言某个猜测十分成功,而实际上并非如此。但在此例中,奖励模型验证了每一步,并判断这条思维链是正确的。

更多问题可见 OpenAI 论文。

总而言之,

1)结果监督模型容易在复杂的问题上产生错误判断和“幻觉”,它们难以理解问题解决的完整过程。而过程监督模型可以验证每一步思维,确保最终得到正确的解决方案,防止产生错误判断。

2) 在猜测和检查不确定的推理方法中,结果监督模型很难判断某个猜测是否真的“成功”,容易产生判断失误。而过程监督模型可以评估每一步推理的有效性,判断思维链的正确性,避免产生错误判断。

3) 过程监督模型可以鼓励模型学习明确、可解释的推理步骤,而不仅仅是最终结果。这可以使模型得出的解决方案更加可依赖和可信任。

4) 随着问题难度的增加,结果监督模型的判断误差也在增加,其优势减小。而过程监督模型不会出现这一问题,其判断精度更加稳定可靠。

5) 过程监督模型可以发现和纠正结果监督模型难以发现的错误,使模型有效学习到解决复杂问题所需的知识和推理技能。

综上,过程监督模型相比结果监督模型在判断复杂问题上更加准确可靠,可以指导模型学习到解决问题所需的完整知识,而不仅是只有最终的结果,其优势也随问题难度增加而增强。它通过评估每一步推理来发现并纠正错误判断,避免模型产生“幻觉”。

目前尚不清楚这些结果将在多大程度上推广到数学之外的其他领域,我们认为探索过程监督在其他领域的影响对于未来的工作很重要。如果这些结果具有普遍性,我们可能会发现过程监督为我们提供了两全其美的方法——一种比结果监督更高效、更一致的方法。

参考


  1. Uesato, J., Kushman N., Kumar R., Song F., Siegel N., Wang L., Creswell A., Irving G. and Higgins, I., 2022. Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275.↩︎



  2. Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D. and Steinhardt J., 2021. Measuring Mathematical Problem Solving With the MATH Dataset. arXiv preprint arXiv:2103.03874.↩︎



  3. Ouyang L., Wu J., Jiang X., Almedia D., Wainwright C.L., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., Schulman J., Hilton J., Kelton F., Miller L., Simens M., Askell A., Welinder P., Christiano P., Leike J. and Lowe R., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.↩︎


作者

Karl Cobbe;Hunter Lightman;Vineet Kosaraju;Yura Burda;Harri Edwards;Jan Leike;Ilya Sutskever;

致谢

贡献者们:Bowen Baker, Teddy Lee, John Schulman, Greg Brockman, Kendra Rimbach, Hannah Wong, Thomas Degry

本文经授权转载「图灵社区」,如需转载,请联系他们的工作人员。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

奇思妙想草叶君
2026-05-29 23:42:57
英特尔新掌机U预售1800美元起,2026年掌机价格已经彻底刹不住车了

英特尔新掌机U预售1800美元起,2026年掌机价格已经彻底刹不住车了

渡川5
2026-05-28 23:01:46
白菜价!曝哈登拒绝4232万美金球员选项,以2年6000万降薪续约骑士

白菜价!曝哈登拒绝4232万美金球员选项,以2年6000万降薪续约骑士

818体育
2026-05-29 14:44:16
伊朗巧施舆论先手棋破西方误导

伊朗巧施舆论先手棋破西方误导

风铃草语
2026-05-29 06:26:24
集体“逃离”!38名球员选择退出!NBA时代怎么了?

集体“逃离”!38名球员选择退出!NBA时代怎么了?

体育新角度
2026-05-29 18:22:28
海口一名26岁教师在赛课时疑因过度劳累猝死,校方:正在按工伤处理;当地教育局已介入调查

海口一名26岁教师在赛课时疑因过度劳累猝死,校方:正在按工伤处理;当地教育局已介入调查

台州交通广播
2026-05-29 22:27:19
赚中国钱跪洋婆家?苏芒代言遭全民抵制,广汽撤下广告紧急止损

赚中国钱跪洋婆家?苏芒代言遭全民抵制,广汽撤下广告紧急止损

翰飞观事
2026-05-27 19:28:11
U19国足出征土伦杯,第二轮比赛前才能凑齐阵容

U19国足出征土伦杯,第二轮比赛前才能凑齐阵容

北青网-北京青年报
2026-05-29 21:58:03
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
俄罗斯这一轮对乌克兰的打击,直接震撼了整个欧洲和美国。

俄罗斯这一轮对乌克兰的打击,直接震撼了整个欧洲和美国。

安安说
2026-05-27 11:31:23
直到特朗普下令深夜突袭伊朗,全世界才惊觉,中国有句话说得很对

直到特朗普下令深夜突袭伊朗,全世界才惊觉,中国有句话说得很对

深挖全球热点
2026-05-29 21:34:52
被封杀后更抢手?侃爷伊斯坦布尔开唱或破9.9万人纪录,狂揽上亿美元

被封杀后更抢手?侃爷伊斯坦布尔开唱或破9.9万人纪录,狂揽上亿美元

追星雷达站
2026-05-30 00:18:22
6.83英寸!小米新机官宣:5月28日,全球首发!

6.83英寸!小米新机官宣:5月28日,全球首发!

科技堡垒
2026-05-27 10:42:37
路易斯:非常感激在上海的时光,这是我最珍贵的回忆之一

路易斯:非常感激在上海的时光,这是我最珍贵的回忆之一

懂球帝
2026-05-29 21:26:23
古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

史之铭
2026-05-28 00:48:09
大换血!国足官宣26人集训名单,邵佳一换掉8大国脚,网友炸锅

大换血!国足官宣26人集训名单,邵佳一换掉8大国脚,网友炸锅

不写散文诗
2026-05-29 12:27:42
奥利塞选梅西是阿根廷第一人!不选C罗当葡萄牙第一人!

奥利塞选梅西是阿根廷第一人!不选C罗当葡萄牙第一人!

历史第一人梅西
2026-05-28 20:19:45
苯磺酸氨氯地平立大功!研究发现:老人坚持吃地平,有5大获益

苯磺酸氨氯地平立大功!研究发现:老人坚持吃地平,有5大获益

健康科普365
2026-05-20 19:40:06
女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

捣蛋窝
2026-05-21 06:40:07
就在刚刚!官宣重罚上海广厦!布朗这一脚毁球队,再输王博要背锅

就在刚刚!官宣重罚上海广厦!布朗这一脚毁球队,再输王博要背锅

老吴说体育
2026-05-29 21:22:57
2026-05-30 01:12:49
CSDN incentive-icons
CSDN
成就一亿技术人
26592文章数 242292关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

数码
游戏
艺术
公开课
军事航空

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

亚运会电竞项目名单出炉!LOL、MLBB等项目暂缺阵容

艺术要闻

吴湖帆小品册页

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版