网易首页 > 网易号 > 正文 申请入驻

AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:KingHZ

【新智元导读】UC Berkeley、UW、AI2 等机构联合团队最新工作提出:在恰当的训练范式下,强化学习(RL)不仅能「打磨」已有能力,更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA,并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

在AI研究圈,一个核心争论是:强化学习(RL)是否能够赋予模型超越其基础模型(base model)的推理能力。

怀疑派观点:早在四月份,清华的黄高团队[arXiv:2504.13837]指出,尽管经过 RLVR 训练的模型在较小的采样值 (k)(例如 (k=1))时能优于其基础模型,但当采样数较大时,基础模型往往能取得相同或更好的 pass@k 表现。

他们通过覆盖率(coverage)和困惑度(perplexity)分析推断,模型的推理能力最终受限于基础模型的支持范围。

类似地,斯坦福崔艺珍团队 [arXiv:2507.14843] 从理论上论证了 RLVR 无法突破基础模型的表征极限。

这种怀疑的直觉在于:

大多数面向推理的强化学习(如 GRPO、PPO 等变体)通过比较同一提示词(prompt)下多个采样的奖励来更新模型。

如果这些采样中没有一个成功解决任务(即 pass@K = 0),那么所有样本的奖励都是一样差的,此时梯度将会消失。

所以关键的问题在于,当基础模型(base model)在某类任务上完全无法解答(pass@K=0)时:

RL是否还能突破零梯度瓶颈,真正学到新策略?

来自加州大学伯克利分校(UC Berkeley)与AI2、华盛顿大学等机构的研究团队,近日给出了一个令人振奋的答案:

RL确实能让模型发现全新的推理模式——但前提是,需要不一样的训练方式。

他们的最新工作《RL Grokking Receipe: How Does RL Unlock and Transfer NewAlgorithmsin LLMs?》提出了一个崭新的测试框架DELTA,专门用来验证该观点。

这项研究为「RL是否能突破模型边界」这一争论,带来了新的实验依据。


论文:https://www.arxiv.org/abs/2509.21016

博客:https://rdi.berkeley.edu/blog/rl-grokking-recipe

相关资源清单(持续更新):https://github.com/rdi-berkeley/awesome-RLVR-boundary

从「打磨」到「顿悟」

RL真学到新算法了?

在主流观点中,RL似乎被困在「隐形的绳子」上 ——

模型的pass@1虽然提高,但在大规模采样下(如pass@128)性能并未扩展。

这意味着它可能只是重新分配已有策略的概率,而不是创造新的策略。

然而,伯克利团队在DELTA测试中发现了「顿悟式跃迁」:在多个基础模型完全失败的任务族中,RL训练经历了一个长时间的「零奖励平台期」,随后突然出现了准确率接近100%的跃迁(phase transition)。


研究者将此描述为 「RL grokking」:那不是微调的延展,而是「想通了」的瞬间。

一个「分布外任务学习性」试炼场

很多工作声称「新任务」,但其实仍落在模型的知识范围内。

伯克利团队这次刻意设计的任务,却真正做到了脱离模型经验的外部分布 (Out-of-Distribution):

1. 全新的语言——互联网上从未出现过。

研究团队以经典2010 flash游戏Manufactoria为灵感,构建了一个全新的合成编程世界。

该游戏的解法仅以图片的形式存在,为了适配语言模型,作者引入了一种全新的程序描述语言,仅由两种原始指令组成:

Puller:从左侧读取并移动符号;

Painter:在右侧写入或标记符号,以此来完成输入输出匹配任务。

2. 全新的任务家族——不是重混关卡,而是全新打造。

研究者不是简单复刻原始的谜题,而是合成了一批全新问题族。这些问题族的难度有简单有困难,最难的问题使得GPT-5都只有0的正确率。

3. 全新的推理方式——与常规代码推理完全不同。

传统代码学习依赖控制流(if/for/while)和数据结构(stack/list/map)。

而在这个极简世界里,模型必须发明一种有限状态机式的推理方式:通过在带子两端不断搬运和标记颜色,完成路由、缓存、比较等操作。

换句话说,模型得在没有变量的环境中「自造算法」。这是一种人类都要重新思考的推理方式。


如果一个RL模型在这里能学会通用策略,那几乎可以排除掉「记忆已有代码模式」的可能,它确实在学习新的算法结构。

破解零梯度诅咒的关键

两阶段奖励调度

伯克利团队的突破在于,他们重新设计了奖励函数的结构。

阶段一:密集奖励(dense reward)

在每个测试用例上给部分分数,而非非黑即白的0/1。即使程序只通过了一半测试,也能获得部分奖励。这让模型从「全零」中获得一丝梯度信号,开始摸索。

问题是: 密集奖励虽然让模型「活了」,但它学会的往往是「投机解」——通过简单模式骗过部分测试。

结果是:平均分高了,完全通过率仍接近0。


阶段二:切换回二值奖励(binary reward)

研究者发现,关键在于时机的切换。当模型通过密集奖励阶段获得「半正确」策略后,再切换到「全对才算赢」的二值奖励,模型突然迎来那一刻——Grokking Phase Transition:从模糊到精确的飞跃。

在约450步后,模型突然学会了任务的核心算法,从此训练进入「强化收敛」阶段,成功率稳定在近100%。那一瞬间,你几乎能看到模型‘领悟’了规律。

在DELTA的多种任务族中,研究者观测到高度一致的学习曲线:前几百步内,奖励几乎为零;接着出现一次陡峭的提升;模型学会了任务核心逻辑,性能稳定在近乎100%。


这条曲线如同人类的学习历程——先是漫长摸索,然后灵光乍现。

顿悟后的技能能否迁移?

团队进一步设计了BouncingSim测试场景,让模型预测小球的弹跳轨迹。


这是一个涉及物理规律与组合推理的任务,是一个极具挑战性的编程任务。

结果显示:

这表明,RL 学习到的技能具备有限的迁移能力:它能重组技能,但尚未形成「概念跃迁」的能力。


深层启示1:RL的两种模式

该研究总结出RLVR在LLM中的两种模式:

而进入发现模式的关键在于:奖励函数设计;探索持续时间;数据混合策略;以及任务的复杂度边界等等。

深层启示2:提升「硬核任务」的而非平均分

研究团队指出,目前RLVR的评测往往在「混合任务池」上取平均,这掩盖了最关键的「硬核任务」突破。

在那些基础模型完全不会(pass@K=0)的任务上,才最有机会观察到RL的「创造性突破」。他们建议未来评估指标应显式报告该子集的表现,因为那才是衡量「模型是否能发现新策略」的真实信号。

为此,伯克利团队搜集并维护了一个在此方向上的代表性工作:

按「立场—方法—评测—数据/基准—讨论」分门别类的列表,便于研究者直接定位到pass@k=0等硬核子集上的最新证据与方法路径。

项目地址: https://github.com/sunblaze-ucb/awesome-RLVR-boundary

深层启示3:从编程迈向数学与科学:RL的新边疆

为何该工作选择编程作为突破口?

因为代码任务天然具备:可验证的单元测试;细粒度、可组合的反馈信号。

这些特性让RL能够精确调节奖励,形成探索路径。

研究者认为,这一思路完全可扩展到数学与科学推理领域:

结语

模型「真正思考」那一刻

这项研究的意义不仅在于性能提升,而在于它展示了LLM真正的学习潜能:

强化学习不只是打磨,而是让模型学会「如何思考」。

在AGI前夜的诸多技术路径中,RLVR 可能是那条让模型从模仿走向洞察的路。

当模型在接近零反馈的黑暗中摸索,直到某一刻突然顿悟——或许这就是AI的「悟道」瞬间。

作者团队介绍

本项研究来自UC Berkeley宋晓东(Dawn Song)团队,与AI2、华盛顿大学等机构合作。

第一作者孙一铀(Yiyou Sun),现为加州大学伯克利分校博士后,2023 年于威斯康星大学麦迪逊分校获博士学位(导师李一璇Sharon Li),主要研究Out-of-Distribution(OOD) 分布外数据的相关问题。

另外在今年5月,Yiyou Sun与宋晓东(Dawn Song)等人还在NeurIPS上发表了论文《OMEGA: Can LLMs Reason Outside the Box in Math?》。

该研究首次系统性地评估了大模型在「跳出盒子」式数学推理中的泛化能力,提出了一个全新的基准——OMEGA。


项目地址: https://github.com/sunblaze-ucb/omega

论文地址: https://arxiv.org/abs/2506.18880

OMEGA聚焦于三种关键的「超分布」泛化能力:

研究团队基于几何、数论、代数、组合、逻辑与谜题等多领域模板构建了多层级测试集,对多款顶级大模型(包括Qwen系列)进行系统评估。

结果显示,当前LLMs在三类泛化任务中仍存在显著差距,尤其在变革式泛化上几乎没有提升。

这一发现揭示出当下模型虽然能「模仿思考」,但在创造性和结构性迁移推理上仍受限于基础模型的边界。

论文作者指出,OMEGA不仅提供了一个衡量模型「数学创造力」的新视角,更为未来RL-for-Reasoning(推理强化学习)研究提供了实验基础。

参考资料:

https://www.arxiv.org/abs/2509.21016

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李敏李讷姐妹一起参加父亲的纪念活动,瞧李讷见了姐姐笑得多开心

李敏李讷姐妹一起参加父亲的纪念活动,瞧李讷见了姐姐笑得多开心

大江
2026-01-29 16:09:33
国防部回应涉台提问:台湾问题纯属中国内政

国防部回应涉台提问:台湾问题纯属中国内政

环球网资讯
2026-01-29 16:13:07
张钧甯,一位拥有绝美写真的女神,她的傲人身材,让人过目不忘!

张钧甯,一位拥有绝美写真的女神,她的傲人身材,让人过目不忘!

去山野间追风
2026-01-29 16:20:11
伊朗:“手指扣在扳机上”,也愿就核协议进行谈判

伊朗:“手指扣在扳机上”,也愿就核协议进行谈判

参考消息
2026-01-29 16:03:31
蒂尔曼:不管是通过附加赛还是直接16强,我们都希望走得更远

蒂尔曼:不管是通过附加赛还是直接16强,我们都希望走得更远

懂球帝
2026-01-29 16:13:12
7460万美元卖出,法国以为坑了中国,中国却把鸡肋直升机玩出了花

7460万美元卖出,法国以为坑了中国,中国却把鸡肋直升机玩出了花

青烟小先生
2026-01-13 11:39:37
突发!日本退出越南核电项目,摸着中国过河的越南,这次玩脱了

突发!日本退出越南核电项目,摸着中国过河的越南,这次玩脱了

毒sir财经
2026-01-29 15:50:15
14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

离离言几许
2026-01-26 16:15:54
斯塔默刚抵达北京,就被眼前的景象震住了,他还是没做好心理准备

斯塔默刚抵达北京,就被眼前的景象震住了,他还是没做好心理准备

奇思妙想生活家
2026-01-29 13:15:54
中国在安理会带头声援伊朗,能为伊朗换来一线生机吗?

中国在安理会带头声援伊朗,能为伊朗换来一线生机吗?

阿校谈史
2026-01-29 15:09:44
伊朗革命卫队回应特朗普威胁:部队已经准备就绪,手指扣在扳机上

伊朗革命卫队回应特朗普威胁:部队已经准备就绪,手指扣在扳机上

音乐时光的娱乐
2026-01-29 15:29:54
离谱!皇马输球罪人揪出 全场灾难级表现 球迷怒喊:快卖去沙特

离谱!皇马输球罪人揪出 全场灾难级表现 球迷怒喊:快卖去沙特

澜归序
2026-01-29 06:37:52
禁止女性上中学大学的阿富汗,会有朋友吗?

禁止女性上中学大学的阿富汗,会有朋友吗?

不主流讲话
2026-01-28 23:22:44
54岁朱茵现状:依旧开97年的车,住在深山残屋,状态一如既往的好

54岁朱茵现状:依旧开97年的车,住在深山残屋,状态一如既往的好

小熊侃史
2025-12-17 09:43:27
男装商家不使用巨型吊牌防止恶意退货!网友:男人买衣看的是质感

男装商家不使用巨型吊牌防止恶意退货!网友:男人买衣看的是质感

火山诗话
2026-01-27 07:47:46
贵金属概念股巨震 湖南白银一度跌超7%

贵金属概念股巨震 湖南白银一度跌超7%

21世纪经济报道
2026-01-29 12:46:53
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
人类史上首次“返老还童”人体临床试验获美国FDA批准!

人类史上首次“返老还童”人体临床试验获美国FDA批准!

徐德文科学频道
2026-01-28 21:16:22
药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

蜉蝣说
2026-01-17 18:36:03
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
2026-01-29 16:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057552文章数 5303关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

旅游
艺术
亲子
手机
公开课

旅游要闻

投资30亿,一年收入500万,玉龙雪山观光火车关停的蛛丝马迹

艺术要闻

梵高全集(高清350张)震撼……

亲子要闻

一个现象:县城里的孕妇越来越少了

手机要闻

游戏直播神器!iQOO 15 Ultra支持一键投屏 开播0门槛

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版