网易首页 > 网易号 > 正文 申请入驻

完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

0
分享至

新智元报道

编辑:LRS

【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习,显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中,分别将自我修正性能提高了15.6%和9.1%。

OpenAI最新发布的o1模型再次证明了自我纠正、显式思考过程在大模型推理中的重要性,思维链可以帮助大模型分解复杂问题,利用计算和交互来改进模型在测试时的性能。

不过,最近有多项研究结果表明,大模型在缺乏外部输入的情况下,基本上无法实现自我纠正,而现有的自我纠正训练方法要么需要多个模型,要么依赖更强大的模型或其他形式的监督信号。

Google DeepMind的研究人员发布了一种多轮在线强化学习(RL)方法 SCoRe,在完全使用自生成数据(entirely self-generated data)的情况下,显着提高了LLM的自我纠正能力。

论文链接:https://arxiv.org/pdf/2409.12917

研究人员首先验证了有监督微调 (SFT) 及其变体得到的离线模型,生成的纠正轨迹(correction traces)不足以把自我纠正能力灌输(still)给语言模型。

还可以观察到,通过 SFT 进行的训练要么会受到训练数据与模型本身回复之间分布不匹配的影响,要么会倾向于某种在测试时无效的纠正模式。

SCoRe 通过在模型本身的自生成纠正轨迹分布下进行训练,并使用适当的正则化来引导学习过程,来学习在测试时有效的自我纠正策略,而非简单地根据给定提示来拟合高奖励回复,从而解决了前面提到的难题。

在基本模型上运行强化学习的第一阶段进行正则化,防止生成容易崩溃的策略初始化,然后使用额外奖励来放大训练期间的自我纠正信号。

在实验阶段,把SCoRe应用于Gemini 1.0 Pro和1.5 Flash模型时,该策略的自我纠正性能最高,在MATH和HumanEval基准上分别将基础模型的自我纠正性能提高了15.6%和9.1%。

如何把自我纠正能力注入到大模型中?

之前尝试实现自我纠正的大模型要么依赖于提示工程,要么需要专门针对自我纠正进行微调模型,两种方法都有缺陷:提示工程无法有效地执行有意义的内在自我纠正,而基于微调的方法需要在推理时运行多个模型,比如需要一个额外的验证器或优化(refinement)模型,或是一个预言模型(oracle)来指导自我纠正的过程。

研究人员提出的基于强化学习实现自我纠正(SCoRe, Self-Correction via Reinforcement Learning)只需要训练一个模型,既可以对推理问题产生回复,也可以在没有接收到任何预言信号(oracle)反馈的情况下纠正错误,SCoRe完全在自生成的数据上训练,而不需要任何预测器来指导模型。

文中首先研究了现有基于微调策略在这种设置中的失败模式,可以观察到,在多轮自我纠正轨迹上运行有监督微调,结合拒绝采样,通常会放大模型的偏见,虽然与基础模型的自我纠正行为相比有显著改进,但仍未能达到积极的自我修正率,并且与第一次尝试相比,第二次尝试的表现更差。

通过对训练过的模型进行探测,研究人员发现这些失败在很大程度上源于有监督微调放大了基础模型的初始偏见,导致模型只能对第一次尝试回复进行微小的编辑变化。

SCoRe策略

SCoRe通过使用在线多轮强化学习(RL)来解决SFT方法的缺陷,即在自生成的数据上运行多轮RL,以避免训练和推理之间分布不匹配。

为了避免在基于策略的数据上训练时学习最小编辑策略的失败模式,研究人员分两个阶段训练SCoRe,每个阶段都通过正则化学习过程来防止行为崩溃(collapse its behavior)。

第一阶段

SCoRe第一阶段的目标是通过提高基础模型对第二次尝试回复的覆盖范围,从而获得良好的模型初始化,以便后续的自我纠正训练不易受到STaR/SFT崩溃的影响。

由于SFT训练模型仅依赖于一种修正行为模式,因此SFT初始化不会生成有信息量和探索性的学习轨迹,所以研究人员不使用SFT来初始化RL训练,而是开发第一阶段来产生一个不易崩溃的单独初始化。

为此,需要明确地对基础模型进行微调,以在第二次尝试时产生高奖励的纠正信号,同时通过使用KL散度将第一次尝试的回复分布约束得尽可能接近基础模型,限制模型不会改变第一次尝试回复的内容。

虽然这个策略看起来是次优的,但第一阶段的主要目标是减少基础模型简单地耦合第一次和第二次尝试分布的偏见,防止在实际运行多轮RL时陷入局部最优,优化目标为:

第二阶段

运行多轮强化学习来优化两次尝试的奖励,同时使用一个额外奖励项(reward bonus term)来激励模型以改进回复。初始化和额外奖励都可以确保模型不只是简单地学会在第一次生成的时候模仿最佳回复内容,然后再进行一些微小的文本编辑。

从效果来看,SCoRe能够从基础模型中引出知识,以实现积极的自我修正。

实验评估

研究人员的目标是证明SCoRe在通过训练自身生成的数据可以有效地教导大型语言模型来纠正自己的错误,并深入分析SCoRe的每个组成部分对于这种能力的贡献。

任务

主要关注数学和编程任务:MATH数据集上的数学问题,以及MBPP和HumanEval上的代码生成任务。

评估协议和指标

研究人员主要报告了自我纠正的准确性,有两次连续的问题尝试,即一轮自我纠正。

对于MBPP的评估协议,文中报告了MBPP-R的结果。MBPP-R是一个离线修复任务,需要修正PaLM 2生成的错误的第一次尝试程序。

模型

MBPP上的所有实验使用微调Gemini 1.0 Pro;MATH的实验微调Gemini 1.5 Flash

对于所有评估结果,使用贪婪解码(即温度0)的推理计算扩展,将温度设置为0.7

对于每个训练方法,使用固定的模型样本和梯度更新budget,在运行期间不改变学习率和批量大小等超参数;在强化学习时,选择训练奖励最高的检查点。

评估提示

在MATH上使用零样本CoT提示进行评估,在HumanEval上使用零样本提示进行评估,并在MBPP上使用三样本提示进行第一次尝试训练样本;

在第二次尝试时,使用一个不透露之前答案正确性的指令,要求模型尝试推断其第一次尝试回复中是否存在错误,如果存在错误,需要重写回复。

对比基线

基于提示的方法Self-Refine;基于微调的方法Pair-SFT及多轮STaR,通过最小化合成配对纠正轨迹和成功纠正轨迹上的负对数似然来微调模型。

基准结果

MATH

实验结果显示,SCoRe在直接和自我纠正准确率方面都表现出显著更强的性能。

值得注意的是,内在自我纠正增益Δ(t1, t2)为4.4%,是第一个显著为正的增量,并且准确率Accuracy@t1更高,所以需要修正的错误问题更少。

与基础1.5 Flash模型相比,SCoRe将Δ(t1, t2)提高了15.6%,将Accuracy@t2提高了23.0%,比最接近的基线Pair-SFT分别提高了10.2%和2.6%

通过观察问题从第一次尝试不正确变为第二次尝试正确的频率,可以看到SCoRe提高了修正错误答案的比率(14.5% vs 基础模型9.5%),并减少了改变正确答案的比例。

代码生成

研究人员发现SCoRe不仅实现了更高的自我纠正性能,而且还具有强大的离线修复性能。

对于MBPP-R,发现SCoRe将基础模型的准确率从47.3%提高到60.6%,与GPT-3.5到GPT-4之间的差距相当(分别为42.9%和63.2%)。

虽然模型仅在MBPP上进行训练,仍然可以观察到SCoRe有效地泛化到了HumanEval基准,实现了12.2%的内在自我纠正增量,比基础模型高出9%

相比之下,Pair-SFT在静态纠正任务MBPP-R上的表现几乎和SCoRe一样好,但在自我纠正设置评估时实际上降低了基础模型的性能,证明了自我纠正中基于策略采样的重要性。

参考资料:

https://x.com/_philschmid/status/1837121100196594084

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际知名品牌宣布:关闭中国市场所有门店

国际知名品牌宣布:关闭中国市场所有门店

新快报新闻
2026-02-28 15:35:04
后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

离离言几许
2026-02-28 18:08:15
它要爆炸了?银河系外最大恒星之一:WOHG64发生巨变!

它要爆炸了?银河系外最大恒星之一:WOHG64发生巨变!

窥探宇宙1
2026-03-01 18:00:03
河北孟村杀妻案最新消息,堂哥说已经被执行

河北孟村杀妻案最新消息,堂哥说已经被执行

九方鱼论
2026-03-01 20:14:28
1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

流苏晚晴
2026-02-26 18:18:15
再年轻也没用!22岁健身博主胡洪盛去世,死因曝光,曾减重90斤

再年轻也没用!22岁健身博主胡洪盛去世,死因曝光,曾减重90斤

青梅侃史啊
2026-02-27 23:44:02
新加坡大满贯赛:太遗憾!国乒男单3:4惜败,无缘冲击男单冠军

新加坡大满贯赛:太遗憾!国乒男单3:4惜败,无缘冲击男单冠军

国乒二三事
2026-03-01 11:56:32
全球巨震,周末到处都在打仗,明天该轮到A股打了!

全球巨震,周末到处都在打仗,明天该轮到A股打了!

老A情报圈
2026-03-02 00:20:17
7-1!霍金斯六连鞭斩获争冠先机,利索夫斯基恐无缘威尔士赛首冠

7-1!霍金斯六连鞭斩获争冠先机,利索夫斯基恐无缘威尔士赛首冠

世界体坛观察家
2026-03-02 00:03:17
一位马来西亚人称:如果中国真的开战,我要向中国报名加入战争!

一位马来西亚人称:如果中国真的开战,我要向中国报名加入战争!

南权先生
2026-02-11 15:56:36
搞笑女汉子糗事经典笑话,女汉子说30多年从没让男人碰过,你是第一个你必须对我负责!

搞笑女汉子糗事经典笑话,女汉子说30多年从没让男人碰过,你是第一个你必须对我负责!

天天明星
2026-02-28 19:38:20
老了才明白,最傻的父母攥着大把存款和退休金,却等着给娃当遗产

老了才明白,最傻的父母攥着大把存款和退休金,却等着给娃当遗产

阿凯销售场
2026-02-28 01:00:58
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

掠影后有感
2026-03-01 10:09:20
首日战况:美以三板斧袭击伊朗斩首战果显著,哈梅内伊及亲属遇难

首日战况:美以三板斧袭击伊朗斩首战果显著,哈梅内伊及亲属遇难

装甲铲史官
2026-03-01 10:32:21
美国军力全球第一,敢打任何国家?俄泼冷水:这4国你敢打谁?

美国军力全球第一,敢打任何国家?俄泼冷水:这4国你敢打谁?

近史谈
2026-01-19 10:09:51
伊朗总统发表声明

伊朗总统发表声明

澎湃新闻
2026-03-01 19:02:58
吃他汀不能碰牛奶?医生苦劝:不只是牛奶,这6物再馋也要忌嘴

吃他汀不能碰牛奶?医生苦劝:不只是牛奶,这6物再馋也要忌嘴

摇感军事
2026-02-27 09:43:26
中方不救美元,效果很明显,特朗普在空军一号喊话中国,措辞强烈

中方不救美元,效果很明显,特朗普在空军一号喊话中国,措辞强烈

阿天爱旅行
2026-03-02 00:17:49
2-1,这场英超太刺激:双方互飙世界波,35岁曼联旧将一剑封喉

2-1,这场英超太刺激:双方互飙世界波,35岁曼联旧将一剑封喉

侧身凌空斩
2026-03-02 00:03:33
2026-03-02 02:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14618文章数 66647关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
艺术
亲子
教育
公开课

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

亲子要闻

养俩娃后醒悟:家长以为的公平,孩子并不需要

教育要闻

11年,学生平均增高5.52厘米!成都这所小学,登上教育部发布会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版