网易首页 > 网易号 > 正文 申请入驻

OpenAI炼出最强数学解题模型,击碎AI瞎说的臭毛病

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 程茜
编辑 | 心缘

智东西6月1日报道,今天凌晨,OpenAI官方博客发布新的研究进展,在数学推理能力上,研究人员正在通过过程监督的奖励模型揪出大型语言模型的逻辑错误。

大型语言模型在执行复杂多步推理能力上有了很大提高,但有时候仍会产生逻辑错误,这种错误通常被称为“幻觉”。这也是阻碍通用人工智能时代到来的关键一步。

而这种幻觉现在有望被结果监督、过程监督的奖励模型打破。具体方法是,研究人员使用模型思维链的最终结果对结果监督的奖励模型(ORM)进行训练,而过程监督的奖励模型(PRM)会接收思维链中每一步的反馈训练。

过程监督相比于结果监督的优势在于,它会直接奖励遵循一致的思维链模型,并且因为过程中的每个步骤都受到了精确的监督,能指出发生错误的确切位置,其结果也更容易被人类解读,因此可以更直接地奖励大型语言模型遵循人类认可的思维链。

OpenAI的研究人员对结果监督和过程监督进行了更详细的比较,他们使用了更强大的基础模型GPT-4、更多的人类反馈,并在MATH数据集上进行了训练和测试。基于上述条件,研究人员证明了,过程监督的奖励模型能解决MATH测试集代表性子集中78.2%的问题。

一、训练1.2万道数学题,大模型监督小模型训练

在测试过程中,结果监督可以在没有人为干预的情况下提供,因为MATH数据集中的所有问题都有可自动检查的答案。但过程监督需要依靠人工数据标注器来标注模型生成的解决方案中每个步骤的重要性。

研究人员就在大规模和小规模两种情况下进行实验,在大规模训练下,研究人员基于GPT-4进行微调,但这一情况下,过程监督和奖励监督的训练集数据没有完全重合,无法直接比较。因此,研究人员对模型进行了小规模训练以进行直接比较。为了降低人工反馈的成本,他们使用大型语言模型来监督小型语言模型训练。

在每个模型上,研究人员使用一个固定的模型来生成所有的解决方案,这个固定模型就是生成器。为了收集过程监督数据,研究人员向人类数据标注器提供了大规模生成器采样的数学问题的解决方案步骤。

人类数据标注器就会为每个步骤分配一个Positive、Negative、Neutral的标签,Positive代表该步骤正确、合理,Negative代表不正确、不合理,Neutral表示有歧义。

Positive:这个问题中,GPT-4在第7、8步时执行猜测,这也是大型语言模型容易产生幻觉的常见地方,即声称某个猜测是正确的,但这里没有发生错误:

Negative:下面这个问题中,第七个步骤,GPT-4进行了错误的简化表达,奖励模型指出了错误:

Neutral:第13步中,GPT-4试图通过组合相似的项来简化等式,它将“12x”正确移动到了左边,并进行了组合,右边的项没有改变,奖励模型没有辨认出这个错误:

研究人员将这一带有标签的步骤数据集称为PRM800K,包含针对12000个问题,75000个解决方案以及80万步骤的标签。其中包含4500道MATH数据集中的问题。

二、过程监督整体效果优于结果监督,解决方案更多效果更好

结果监督的奖励模型中,研究人员从生成器中为每个问题均匀采样固定数量的答案,并训练奖励模型预测每个答案是正确或不正确。实际操作过程中,研究人员会通过自动检查最终答案来确定正确性。并使用奖励模型在最终token处的预测作为解决方案的总体得分。

但这种自动评分机制并不完全可靠,该机制无法对通过错误推理得出正确答案的解决方案作出合理判断。

过程监督的奖励模型会预测每个步骤中最后一个token的正确性。如下图所示,过程监督的奖励模型对同一问题的两个解决方案评分,左边的解决方案正确,右边不正确。绿色标注是高分数,红色标注是低分数,奖励模型能正确识别右边解决方案中的错误位置。

研究人员使用来自MATH测试集的问题来评估其过程监督和结果监督奖励模型,为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。

下图显示了最终达到正确答案的所选解决方案的百分比,过程监督奖励模型整体表现更好,并且随着研究人员对每个问题的解决方案考虑范围扩大,其性能差距也会扩大。因此,研究人员认为,过程监督奖励模型更加可靠。

三、数学外224道问题评估,过程监督效果更优

研究人员还研究了主动学习的影响,他们估计主动学习可以使过程监督的数据效率提高2.6倍。

此外,为了探究奖励模型的泛化性,研究人员还对224道STEM问题进行了大规模的过程监督、结果监督评估,包括AP物理、AP微积分、AP化学、AMC10和AMC12考试,其中,过程监督的表现优于结果监督。

并且过程监督更有可能产生可解释的推理,因为它会鼓励大型语言模型遵循人类确认的逻辑思考过程。

在某些情况下,更安全的人工智能系统方法会导致其性能下降,会产生对齐税(alignmenttax)成本,也就是大型语言模型要和人类的价值观对齐,这在一定程度上会约束大型语言模型的想象力。

OpenAI研究人员的结果表明,在数学领域,过程监督实际上会产生负对齐税。

目前尚不清楚这些结果能否完全推广到数学以外的领域,但研究人员认为,如果这些结果具有普遍性,过程监督就提供了一种比结果监督更高效、更一致的方法。

结语:AI可解释性研究亟需加速

上个月,OpenAI用GPT-4来自动解释GPT-2的行为的研究打开了大模型思考黑盒,此次,在数学推理能力上,研究人员又通过过程奖励模型使得大模型的思考过程变得可追踪、可纠错,这些研究都使得AI的可解释性有了更大的进步空间。

从结果来看,过程监督奖励模型的效果目前只在数学推理领域得到有效印证,但正如OpenAI的研究人员所说,目前的研究方向对于过程监督在其他领域的影响以及未来的工作很重要。这些研究未来可以让大模型在内容生成、理解上展现出强大能力的同时,其“思考过程”也能被检测出是否有偏见或错误,从而让大模型的黑盒变得更加透明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
问界M7事故细节曝光!车辆没搭载智驾系统,他们根本不是被撞死的

问界M7事故细节曝光!车辆没搭载智驾系统,他们根本不是被撞死的

快乐娱文
2024-04-28 19:52:26
琉球人游福州遇“石敢当”,叹:琉球到处都有,1392年由闽氏36家族引入

琉球人游福州遇“石敢当”,叹:琉球到处都有,1392年由闽氏36家族引入

可达鸭面面观
2024-04-28 18:38:26
“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

古希腊掌管松饼的神
2024-04-28 09:10:08
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
新冠疫苗之父杨晓明被抓,带队研制科兴疫苗,曾9个月抽60管血!

新冠疫苗之父杨晓明被抓,带队研制科兴疫苗,曾9个月抽60管血!

闲事杂说
2024-04-28 02:12:03
村支书禹作敏:想当副总理只接待正部级,93年使400警察不敢进村

村支书禹作敏:想当副总理只接待正部级,93年使400警察不敢进村

百年历史老号
2024-04-04 21:46:50
5月6日起实施,大陆亮出对台新政策,赖清德后路已断,两岸必统一

5月6日起实施,大陆亮出对台新政策,赖清德后路已断,两岸必统一

说天说地说实事
2024-04-28 20:42:29
放弃中国籍,主动加入日本自卫队华裔占比日军总数的2.5%

放弃中国籍,主动加入日本自卫队华裔占比日军总数的2.5%

史政先锋
2024-04-28 11:18:30
博世打脸问界!隐藏式门把手未弹出让三人错失救援机会

博世打脸问界!隐藏式门把手未弹出让三人错失救援机会

映射生活的身影
2024-04-28 23:50:06
山城的“险与美”,传祺GS4 MAX挑战8D魔幻城市——重庆

山城的“险与美”,传祺GS4 MAX挑战8D魔幻城市——重庆

汽车生活
2024-04-28 21:00:12
“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

星辰故事屋
2024-03-08 21:12:51
广东:女子精心打扮跨省奔现,见面后男友一脸嫌弃:个子太矮了!

广东:女子精心打扮跨省奔现,见面后男友一脸嫌弃:个子太矮了!

夫妻谈资局
2024-04-26 18:07:16
住房限购政策逐步退出市场,仅北上广深、杭州天津西安海南等地还在执行限购

住房限购政策逐步退出市场,仅北上广深、杭州天津西安海南等地还在执行限购

澎湃新闻
2024-04-29 07:50:30
28国联合施压中国,我方终于签字,主战场已定,王毅直接摊牌了

28国联合施压中国,我方终于签字,主战场已定,王毅直接摊牌了

星辰故事屋
2024-04-28 19:29:31
辽宁14岁女孩爱上整容,20年整容300次,花费高达400万元

辽宁14岁女孩爱上整容,20年整容300次,花费高达400万元

鬼谷子思维
2024-04-27 15:21:40
1.76亿,重签湖人!紫金军找到建队核心,詹姆斯生涯暮年感谢有你

1.76亿,重签湖人!紫金军找到建队核心,詹姆斯生涯暮年感谢有你

呆哥聊球
2024-04-29 09:54:28
告别!亚洲第一飞人落幕,苏炳添轰10秒50,名次第5无缘达标奥运

告别!亚洲第一飞人落幕,苏炳添轰10秒50,名次第5无缘达标奥运

林小湜体育频道
2024-04-28 21:06:56
开鲁县土地“有偿使用费”再调查:张家兄弟称是招商引资而来,早年平整土地花费巨大

开鲁县土地“有偿使用费”再调查:张家兄弟称是招商引资而来,早年平整土地花费巨大

红星新闻
2024-04-28 23:30:17
上月前往中央任职的候补中央委员,再添新身份!

上月前往中央任职的候补中央委员,再添新身份!

上观新闻
2024-04-28 17:17:53
被曝光后才知道的真相:地方财政吃紧的原因,钱都是这样子花掉的

被曝光后才知道的真相:地方财政吃紧的原因,钱都是这样子花掉的

boss外传
2024-04-28 18:20:03
2024-04-29 10:16:49
智东西
智东西
聚焦智能变革,服务产业升级。
8450文章数 116446关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

男子将车停小区车位被贴"违停单" 直言燃油车主太难了

头条要闻

男子将车停小区车位被贴"违停单" 直言燃油车主太难了

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

数码
时尚
手机
游戏
军事航空

数码要闻

OPPO Pad 3 平板电脑搭 3K 面板,配骁龙 8 Gen 3 + 16GB RAM

人到中年穿裙子更提气质,夏季借鉴好这些搭配技巧,时尚高级优雅

手机要闻

Xiaomi Hyper OS将增加重磅功能,米粉表示非常的期待

Nexon开发《权力的游戏》改编MMORPG曝光

军事要闻

也门胡塞击落美军"死神"无人机 并展示残骸

无障碍浏览 进入关怀版