网易首页 > 网易号 > 正文 申请入驻

清华团队深度实证:RL 真能让大模型进化吗?能力边界仍被基座“锁死”!

0
分享至

大数据文摘出品

强化学习(RL)真的能让大模型获得超越基础模型的新推理能力吗?

近日,清华大学LeapLab团队联合上海交大,发布了一篇题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新论文,给最近火热的RLVR(带可验证奖励的强化学习)又“泼了一盆冷水”。

论文地址:https://arxiv.org/pdf/2504.13837

论文标题翻译过来是:强化学习(RL)真的能让大模型获得推理能力上的跃迁吗?

论文结论是:RLVR提升的,其实只是采样效率,而不是让模型学会了真正全新的推理能力。

换句话说:RLVR只是把基础模型本来就会的东西,采样采得更有效率了。

这份研究直接打破了AI圈子里的“先验知识”,大家都觉得RLVR是让大模型变聪明的“加速器”,特别是在数学、代码等需要推理的任务上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后处理,成绩一骑绝尘。 原理很简单: 先有个基础大模型→ 用RLVR强化一下→ 通过自动判分(比如答案对不对、代码测不测得过)给奖励。

理论上,它能自我提升,学到以前没见过的新解题套路。于是, 这几年,大家都在说,RLVR能让大模型“自我进化”,推理能力突破天花板。

清华团队的“灵魂拷问”:RLVR,真能越过基座吗?

清华团队这篇论文,直接抛出了“灵魂三问”:

  • RLVR强化训练,究竟有没有让大模型获得“超越基座模型”的全新推理能力?

  • 模型的推理边界到底被RLVR拓宽了吗?还是只是换了一种方式采样?

  • 我们是否过于高估了RLVR的“自我进化”魔力?

对于上述三个问题,作者用pass@k作为研究方法的核心。因为传统的模型评测,大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到,这种评估方式其实低估”了模型的潜力。 原因是: 有些难题,模型可能前几次都答错,但多采样几次,或许就能“撞”出正确答案。

于是,论文采用了 pass@k 这个指标: 对于每道题,采样k次,只要有一次答对,就算成功。 k越大,越能“榨干”模型内在的推理极限。

核心逻辑是:如果RLVR真能带来新能力,那在k再大时,它也应该比基座模型更能解出难题。

实验结果有点颠覆大家认知——

RLVR训练的模型,在k小的时候表现更好,但k大了以后,基础模型能超过它!

也就是: RLVR训练让模型更高效采样出正确答案,但没有带来全新的推理能力,能力边界始终被基座模型“锁死”。

案例1:数学推理

以AIME24数学竞赛题为例,RLVR模型一开始比基座模型高出30%的准确率,但多采样后,基座模型最终能解出更多题目,RLVR的“能力天花板”反而更低。


案例2:代码生成

在LiveCodeBench等编程基准上,RLVR模型单采样表现亮眼,但当k采样数提升到128时,基座模型解题覆盖率反超RLVR。


案例3:视觉推理

多模态视觉推理同样复现上述现象——RLVR提升了采样效率,却没让模型产生全新的多模态推理路径。

RLVR的“聪明”,其实是把基础模型会的东西,输出概率调高了,真正的新推理路径?并没有,基础模型多采样就能覆盖所有RLVR模型能做的题

甚至,RLVR还收窄了模型的探索能力——它会更集中在“能得分的套路”上,但反而失去一些“歪打正着”的能力,导致极限覆盖没基础模型广。

无论是代码生成(LiveCodeBench、HumanEval+),还是视觉推理(MathVista、MathVision),趋势都是一样:RLVR提升了单次成功率,但大采样下基础模型能覆盖更多难题。

为什么会这样?

清华的这篇论文认为有两点原因:

一是大模型的“先验”太强了。RLVR本质上是在基础模型原有输出分布里找高分的“套路”,不走新路;RL算法本身不适合探索超大动作空间(语言的组合爆炸),靠奖励信号很难跳出原有思路。

二是探索能力反而被抑制。RLVR让模型更“稳”,但也更“保守”,输出熵降低,探索新解法的能力变弱。

RLVR在大模型推理这件事上,和AlphaGo那种“纯RL自我进化”完全不是一回事。大模型的RLVR只是“采样分布微调”,不是“能力进化”。

怎么解决?

论文做了一个实验,把更强的模型的推理链条喂给小模型,小模型能真的学到新花样,推理上限突破原有格局。

所以,如果真想让模型能力更进一步,靠RLVR远远不够,得靠知识蒸馏“老师带学生”那一套。

即“让模型变聪明”的关键,或许在于“注入新知识”(如蒸馏),而不是单纯靠奖励强化。

或者探索“更强的探索范式”,比如结合RL和生成式探索、提升模型对“低概率创新路径”的容忍度等。

图源:清华大学LeapLab实验室官网

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菲律宾又对中国许下承诺,马科斯嘴上说得漂亮,这回能不能兑现?

菲律宾又对中国许下承诺,马科斯嘴上说得漂亮,这回能不能兑现?

寻途
2026-07-05 03:06:39
我第一个情人隔壁公司的,她比我大八岁,那时我二十五,她三十三

我第一个情人隔壁公司的,她比我大八岁,那时我二十五,她三十三

千秋文化
2026-07-01 20:28:30
队报:格列兹曼已抵达奥兰多,若法国进八强将现场观战

队报:格列兹曼已抵达奥兰多,若法国进八强将现场观战

懂球帝
2026-07-04 22:53:14
他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

他若不死,国民党不会败退台湾!蒋介石痛悔亲手杀了这个人

历史人文2
2026-07-02 20:30:03
不守了!攻出去!海警突入日本琉球群岛,曾以同样计谋实控钓鱼岛

不守了!攻出去!海警突入日本琉球群岛,曾以同样计谋实控钓鱼岛

音乐时光的娱乐
2026-07-02 09:04:48
牡丹花下死!送走马蓉又迎冯清,43岁王宝强,终究栽进“女人坑”

牡丹花下死!送走马蓉又迎冯清,43岁王宝强,终究栽进“女人坑”

小噎论事
2026-04-15 05:19:35
老外评世界杯美食:油腻但上瘾,份量大终于理解美国肥胖

老外评世界杯美食:油腻但上瘾,份量大终于理解美国肥胖

固件更新中
2026-07-05 00:59:37
跟三个40多岁的女人同居过之后,我算是看透了,别扯什么灵魂伴侣

跟三个40多岁的女人同居过之后,我算是看透了,别扯什么灵魂伴侣

i书与房
2026-06-24 07:55:08
重磅组建辩护团队严阵以待!菲副总统杜特尔特:早已预料遭弹劾

重磅组建辩护团队严阵以待!菲副总统杜特尔特:早已预料遭弹劾

兰妮搞笑分享
2026-07-05 03:55:47
黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

磊子讲史
2026-06-22 15:59:52
存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

白浅娱乐聊
2026-07-04 21:05:39
凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

凌晨1点,72岁濮存昕用一根布绳,将自己和94岁老母狠狠绑在一起

小椰的奶奶
2026-06-15 07:39:15
全队只有两人表现达标,湖人下一场夏季联赛应该要大换血了?

全队只有两人表现达标,湖人下一场夏季联赛应该要大换血了?

稻谷与小麦
2026-07-05 01:34:02
网红Alix海边派对清凉上阵,礼服险走光

网红Alix海边派对清凉上阵,礼服险走光

赴一场山海啊
2026-07-04 01:02:14
7月4日,基本养老金的调整通知公布了吗?工龄低于20年能涨3.5%吗

7月4日,基本养老金的调整通知公布了吗?工龄低于20年能涨3.5%吗

小谈食刻美食
2026-07-04 07:34:34
4日战报!国乒男双夺冠,世界冠军1-3爆冷,孙颖莎下轮对手敲定

4日战报!国乒男双夺冠,世界冠军1-3爆冷,孙颖莎下轮对手敲定

越岭寻踪
2026-07-04 07:05:46
整整4.46亿美金!东契奇别高兴太早,湖人自己选的路跪着也要走完

整整4.46亿美金!东契奇别高兴太早,湖人自己选的路跪着也要走完

世界体育圈
2026-07-03 17:52:57
哪个更心痛:美国460亿美元边境墙,泰山2千多万隔离网

哪个更心痛:美国460亿美元边境墙,泰山2千多万隔离网

民间胡扯老哥
2026-07-04 08:05:26
上海西郊宾馆旁一栋抵押款就有7600万的独栋别墅拍卖,5078万成交

上海西郊宾馆旁一栋抵押款就有7600万的独栋别墅拍卖,5078万成交

阿离家居
2026-07-04 20:03:05
一位清华教授曾直言:过去三十年搞房地产,赚的都是断子绝孙的钱

一位清华教授曾直言:过去三十年搞房地产,赚的都是断子绝孙的钱

无意争春
2026-06-02 20:45:10
2026-07-05 06:11:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6874文章数 94550关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
时尚
房产
数码
家居

教育要闻

高考地理中的植被响应

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

家居要闻

传奇筑 日常诗

无障碍浏览 进入关怀版