网易首页 > 网易号 > 正文 申请入驻

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

0
分享至

  新智元报道

  编辑:桃子 犀牛

  【新智元导读】数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。

  通往AGI最大的绊脚石,便是互联网数据不够用了!

  DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。

  但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。

  如果问题复杂到人类都不知道答案,这些AI就只能抓瞎了。

  为此,CMU联手独立研究员推出一套「自奖励训练」(SRT)的全新方法,堪称AI「自我修行」的秘籍!

  论文地址:https://arxiv.org/pdf/2505.21444

  它的核心思路是,让LLM利用自身「自洽性」作为内在的监督信号,生成奖励来优化自己。

  简单来说,AI会像一个哲学家,盯着自己的答案自问:这个推导逻辑自洽吗?有没有漏洞?

  然后,它会根据答案「自洽程度」给自己打分,再用分数去不断改进。

  关键是,SRT完全不需要人类标注的数据,可以自然地应用于「测试时训练」。

  实验结果让人眼前一亮:在早期训练阶段,SRT的性能与标准答案训练RL方法相媲美。

  目前,研究团队的代码已公开。

  地址:https://github.com/tajwarfahim/srt

  自奖励训练:AI自我修行秘籍

  在没有外部监督的情况下,模型需要依靠自身来生成监督信号。

  直观来说,如果模型能够在其生成的多个答案中识别出更高质量的答案,那么这种识别出的改进就可以作为训练信号。

  这种情况自然地发生在具有正向「生成-验证差距」的问题中,比如数学、逻辑推理和代码生成任务。

  一种简单但有效的方法是利用多数投票来挖掘这种差距。实验表明,这比单个模型生成的答案有更高的准确性。

  在本文的设置中,多数投票的步骤包括:

  对每个提示采样生成多个答案;

  根据解析出的最终解决方案对答案进行分组;

  用最常见的解决方案(众数)来估计真实答案。

  自进化方法SRT

  研究团队提出了一种新颖的方法,把模型的自我改进过程设计成一个强化学习任务。

  在这个过程中,标签并不是固定的,而是由模型不断演变的多数投票结果动态生成的。

  简单来说,就是让模型自己「投票」选出最好的答案,并用这些答案作为指导,逐步提升自己的表现。

  强化学习的每一轮操作可以简单理解为以下步骤:

  采样一小批提示,然后用当前模型为每个提示生成n个可能的答案。

  通过「多数投票」的方式,找出每个提示下最常见的答案,作为临时的「标准答案」(伪标签)。

  检查每个生成答案是否与多数投票的答案一致,如果一致就给它一个奖励(用公式表示为:r(y) = 1[answer(y) = y_majority])。

  根据这批数据和计算出的奖励,更新一次模型,让它变得更聪明。

  具体来说,研究团队设计了一种奖励机制,巧妙利用模型自洽性来定义奖励方式。这使得他们的方法能轻松适配常见的强化学习算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。

  另外,由于每个问题提示通常会生成16到64个答案,SRT跟其他基于标签的算法相比,不会增加额外的计算负担。

  只要每次强化学习迭代时,多数投票都能让模型的生成结果比验证结果更好一点,这种反复的自我奖励就能持续提供有用的指导信号,帮助模型不断进步。

  虽然模型自我改进的前景令人振奋,但仍然有局限性:模型自生成的奖励仅仅是衡量潜在正确性的代用指标。

  这种代用奖励可能触发「奖励作弊」(reward hacking):模型为了最大化自身赋予的奖励,会产出越来越自洽却可能并不正确的答案。

  总的来说,这项研究的贡献有以下四点:

  提出了一种简单而有效的自训练强化学习方法——自奖励训练(SRT)。该方法利用多个模型生成解之间的一致性来估计强化学习训练中的正确性,在没有标记数据的情况下提供自监督信号。

  通过实验证明,在早期训练阶段,SRT的性能可媲美使用标准答案训练的标准强化学习方法。

  分析了自生成奖励的局限性,揭示了模型的奖励函数最初与正确性相关,但可能会退化为仅反映置信度而非真实准确性,导致奖励作弊问题。

  提出了缓解奖励作弊的策略,为未来持续模型改进的方法奠定了基础。

  实验结果

  最新提出的SRT算法,其优势和局限是什么?

  为此,研究人员基于Qwen2.5-Math-7B模型,展开了一系列研究,具体回答了以下四大核心问题:

  与基于真实标记的标准强化学习方法相比,SRT算法的有效性如何?对未见问题可以实现泛化吗?

  自我改进能否持续迭代从而实现性能的不断提升?抑或这种改进存在固有上限?

  哪些底层因素会影响自我改进的有效性?

  当SRT用于测试阶段的性能提升时,实际效果如何?

  基于多数投票的自训练

  如下图2所示,在MATH和AIME训练集上,自监督SRT方法无需真实标记信号,即可取得与基于真实标记的强化学习相当的结果。

  值得注意的是,图2的pass@1分数均是在保留测试集上评估的,这表明自训练过程能稳健地泛化到训练分布之外。

  然而,DAPO数据集上的结果更为复杂。

  具体而言,在DAPO上训练时,研究人员发现SRT算法在测试集上的性能,最初以与基于真实答案的标准RL相当的速度提升。

  但在约400-600训练步时,SRT达到峰值性能后开始下降,而基于真实标记的标准RL训练却能持续提升。

  总体而言,研究发现了一个引人注目且出人意料的趋势:即使没有任何标注样本,SRT的性能曲线在训练初期与基于标准答案的RL高度吻合。

  在统计误差范围内,SRT在MATH和AIME'83-AIME'23数据集上的峰值测试pass@1分数与有监督RL方法基本持平。

  在更具挑战性的DAPO数据集上,SRT仍能达到RL最终性能的75%。

  此外,在所有三个训练集上,SRT的峰值性能相比基础模型都有约100%的相对提升。

  SRT性能峰值后,异常现象分析

  当SRT在DAPO训练集上达到性能峰值后(见图2),研究人员观察到其测试准确率开始显著恶化。

  事实上,在MATH-12k数据集上训练超过两个epoch时,同样会出现明显的性能崩溃现象。

  对于这种行为,作者给出一个简单而精确的理论解释:

  由SRT目标定义的强化学习优化问题明确鼓励输出之间的一致性,而与正确性无关。

  因此,在该目标下的最优策略是无论输入如何都生成完全相同的响应,从而人为地获得最大可能的奖励。

  因此,自然可以预期,在这种代理目标下的持续训练可能导致这种退化解,尤其是当优化这一目标比学习解决实际任务更容易时。

  测试时自改进

  自训练的一个诱人应用,是通过测试时训练(test-time training)提升模型准确率。

  将SRT作为测试时训练技术应用异常简单:只需将无标注测试集完全视作训练数据集,并直接应用SRT。

  接下来,研究人员对比了经过SRT测试时训练后的多数投票性能,与未进行任何测试时训练的性能。

  如下图4显示,在maj@32指标下,相比直接对基础模型生成输出应用主流多数投票基线,通过SRR实现的测试时训练能带来相对有限,但仍可察觉的性能提升。

  此外,在更大规模的测试数据集上,相较于基础模型的多数投票,其性能增益更为显著。

  为何测试时训练不会引发性能崩溃?

  有趣的是,测试时训练完成后,通过直观检查模型输出可发现:尽管模型对几乎每个测试提示的预测都退化成了单一响应(这正是SRT目标的最优解行为),但测试准确率仍保持高位。

  研究人员推测,测试时自训练的稳定性源于数据集规模的关键差异。

  以AIME24测试数据集为例,其仅含30个自改进样本。

  在此有限样本量下,模型会通过强化特定CoT推,迅速收敛至这些样本上的稳定多数投票答案。

  一旦达成收敛,SRT便无法获得有意义的梯度信号以进一步更新参数,从而自然稳定了测试时性能。

  相比之下,在大规模数据集常规训练时,持续输入的新样本会不断驱使模型为一致性进行过度优化。

  在此条件下,模型倾向于采用过度简化的泛化策略(生成相同的\boxed{}答案),最终因输出与提示无关的单一预测而崩溃。

  大模型崩溃,可以避免吗?

  那么,LLM是否可以避免崩溃?

  如上所述,自奖励训练(SRT)的优化目标,可能导致初期性能显著提升,但最终引发模型崩溃。

  为此,研究人员探究了以下互补策略,以应对模型崩溃问题,进一步提升自训练性能上限:

  早停(Early Stopping)策略:利用少量带标注的验证数据集监测模型状态,及时终止训练以防止崩溃;

  算法策略:通过采用稳定基模型(而非持续更新的模型)生成的伪标记,从根本上降低崩溃风险;

  数据驱动的课程学习(Curriculum Learning)策略:突破简单早停的局限,通过渐进式学习机制提升模型性能。

  早停策略

  实验中,即使仅使用少量标注验证数据,也能有效识别自训练过程中的性能峰值点,从而规避模型崩溃风险。

  如图6所示,通过在DAPO数据集上持续监测训练过程并在多个测试集上进行评估,作者发现一个关键现象:

  不同保留测试集上的性能峰值均出现在相近的训练步数。

  这一规律表明,任意一个测试集都可用于早停决策。

  具体而言,图6中的垂直虚线展示了仅使用1%的DAPO数据作为验证集的早停效果——此时模型在所有其他评估数据集上的性能仍保持接近最优水平。

  算法策略

  模型崩溃的根源在于SRT(自训练强化学习)过度强调一致性而非正确性——即使输出结果错误,模型间的一致性也会被持续强化。

  针对此问题,研究人员提出一种简单有效的解决方案:从稳定的固定检查点(而非持续更新的策略)生成伪标记。

  具体实施中,他们采用Qwen2.5-Math-7B基模型,通过多数表决机制生成伪标记,将这些离线生成的标记存储后用于后续强化学习训练。

  图7显示,使用此类离线标记不仅能显著提升训练稳定性,还能达到与SRT相当的模型性能。

  这一发现具有重要启示:训练过程中动态更新伪标记(在线标注)未必能带来显著优势,反而可能成为训练不稳定的诱因。

  课程学习策略

  此外,研究人员提出一个关键假设:模型在更具挑战性的数据集上训练时,崩溃现象会更快出现。

  其内在机理在于:面对高难度数据时,模型更容易放弃预训练知识,转而通过优化自一致性(而非真正学习解决任务)来获取奖励。

  基于此假设,研究人员采用课程学习,通过筛选DAPO数据集中「最简单」的子集进行训练。

  具体而言,他们保留根据以下两个指标选出的前1/3最简单提示样本:

  基模型通过率(需真实标记)

  多数表决频率(无需真实标记)

  如图8所示,在这些简单子集上训练能显著延缓奖励破解现象的出现,使模型在多个训练周期内持续提升。

  值得注意的是,采用课程学习策略后,模型性能最终达到了与在整个DAPO数据集上使用真实标记进行标准强化学习训练相当的水平。

  这些突破性结果表明,课程学习策略有望进一步拓展SRT的效能边界,为后续研究开辟了新的方向。

  参考资料:

  https://www.alphaxiv.org/overview/2505.21444

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

亦暖追剧随笔
2026-03-25 18:01:42
第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

命运自认幽默
2026-03-26 18:16:09
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

晓徙娱乐
2026-03-23 16:35:39
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

中国网
2026-03-26 17:29:03
你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

农夫也疯狂
2026-03-26 19:50:43
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

巢客HOME
2026-03-24 06:30:03
2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

混沌录
2026-03-20 21:00:04
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

闪电新闻
2026-03-26 14:06:10
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

户外阿毽
2026-03-23 07:52:09
2026-03-26 20:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
教育
时尚
本地

《迷你金属2》4月开启开发版测试 军事题材战略模拟

艺术要闻

哪一座桥不是风景?

教育要闻

2026人工智能时代下的教育课堂变革

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版