网易首页 > 网易号 > 正文 申请入驻

NuerIPS唯一满分论文曝光,来自清华上交

0
分享至

四个审稿人全给6分,NuerIPS唯一满分论文炸了!

之所以说它炸,主要是论文给出的结论实在太出人意料了——

真正决定推理上限的是基座模型本身而非强化学习,且蒸馏比强化学习更有望实现大模型自我进化。

好家伙,这无异于给正炙手可热的RLVR(可验证奖励的强化学习)迎面泼下一盆冷水~



RLVR,自大模型推理范式开启后就成为一众主流模型(如OpenAI-o1、DeepSeek-R1)的核心驱动力。

由于无需人工标注,通过自动验证奖励优化模型,它一度被视为实现模型自我进化、逼近更高推理能力的终极路径。

但来自清华上交的这篇论文,却让风向陡然生变——

如果进化的钥匙不在强化学习,那当前围绕RLVR的巨额投入与探索,意义何在?



真正能突破推理上限:蒸馏而非强化学习

这篇论文题目为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 》,“获NuerIPS唯一满分”的结论由PaperCopilot(非官方论文分析平台)统计得出。

同时它还荣获ICML 2025 AI4Math Workshop最佳论文奖,并入选NeurIPS 2025大会口头报告。



之所以提出这项研究,主要是近年来RLVR在大语言模型中被广泛应用于提升数学、编程、视觉推理等任务的表现。

随之而来的是,AI圈普遍假设——

RLVR不但能提升推理效率,还可能扩展模型的推理能力,即让模型学会底层基础模型本来不会的新推理路径。

但问题是,这一结论真的成立吗?



于是带着疑问,来自清华上交的研究团队核心想要弄清一个问题:

  • RLVR是否真的让大语言模型超越其“底模”推理能力边界,还是只是优化已有能力?

而通过一系列实验,团队得出以下最新结论:

  • RLVR主要是在“强化”底模已有的路径,而不是“发现”底模没有的路径。
  • RL训练后的模型在低采样次数(如pass@1)表现更好,但随着采样次数增加(pass@64、pass@256…),底模反而能超过RL模型,这说明底模隐藏的推理能力被低估了。
  • 多种RL算法(如PPO、GRPO、Reinforce++等)在提升采样效率方面差异不大,且与“理论上底模最大能力”相比,仍有明显差距,这说明想靠RL突破底模上限还不够。
  • 蒸馏方法更有可能“扩展”模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模。



换句话说,与普遍认知相反,RLVR的实际作用很可能被严重高估了。



关键评估指标:pass@k

而为了得出上述结论,他们采用了pass@k这一关键评估指标。

所谓pass@k,是指衡量一个模型在多次尝试中,至少成功一次的几率。

相比一些传统指标(如greedy decoding准确率)仅反映平均表现,它通过多轮采样揭示模型的推理边界,能更精准判断模型是否“有能力”解决问题,而非“大概率”解决问题。

具体来说,他们主要把底模、RL模型放在同一批题目上反复测试,来看模型是“真的变聪明”还是只是“更会挑答案”。

为避免实验结果的局限性,团队选取了大语言模型推理能力的三大典型应用领域,并搭配权威基准数据集,确保测试的全面性和代表性。

  • 数学推理(GSM8K、MATH500等6个基准)
  • 代码生成(LiveCodeBench等3个基准)
  • 视觉推理(MathVista等2个基准)

模型则以主流大语言模型家族为基础,包括Qwen2.5系列(70亿、140亿、320亿参数)和LLaMA-3.1-80亿参数模型等,并构建“基础模型 vs RLVR训练模型”的对照组合。

其中RLVR训练模型是指,分别用PPO、GRPO、Reinforce++等6种主流RLVR算法训练后的版本,形成多组平行对照。这样既能对比RLVR与基础模型的差异,也能横向比较不同RLVR算法的效果。



然后就是对不同模型在各基准任务上的pass@k指标进行多维度采集与分析。

针对每个测试样本,分别让基础模型和RLVR模型进行不同次数的采样(k值从1逐步提升至1024),记录每次采样中“至少出现一个正确结果”的概率。

随后团队重点分析两个关键规律:

一是同一k值下,RLVR模型与基础模型的pass@k差异;二是随着k值增大,两类模型pass@k曲线的变化趋势。

同时,结合模型输出的推理路径困惑度分析(perplexity)、可解问题子集比对等辅助手段,最终形成对RLVR能力的全面判断。

论文作者介绍

值得一提的是,这项研究还是出自咱们国内研究人员之手。

一共8位,7位来自清华大学LeapLab,1位来自上海交通大学。

项目负责人Yang Yue (乐洋),清华大学自动化系四年级博士生。

研究方向为强化学习、世界模型、多模态大模型和具身智能,之前曾在颜水成创办的新加坡Sea AI Lab和字节跳动 Seed团队实习过。

虽然还是学生,但发表或参与发表的多篇论文均入选顶会。这当中,他以核心作者身份发表的论文《How Far is Video Generation from World Model: A Physical Law Perspective》,因探索视频模型能否学会物理规律,还被国内外众多大佬Yan Lecun,xie saining,Kevin Murphy等转发。



另一位和他贡献相同的作者Zhiqi Chen,目前为清华大学自动化工程系大三学生。

研究方向为推理密集型大语言模型的强化学习,在校期间多次获得国家奖学金。



通讯作者Gao Huang(黄高),清华大学自动化系副教授、博士生导师, LeapLab负责人。

他最知名的工作之一就是发表了论文《Densely Connected Convolutional Networks》,其中提出了经典卷积架构模型DenseNet。

该论文不仅荣获CVPR2017最佳论文,而且被编入多本深度学习著作,单篇引用量接近6万次。



其他作者中,来自清华的还有:

  • Rui Lu(卢睿),清华大学自动化系四年级博士生,本科毕业于姚班。
  • Andrew Zhao(赵启晨),清华大学自动化系博士生,本硕毕业于加拿大哥伦比亚大学和南加州大学。
  • Shiji Song,清华大学自动化系教授,与黄高一起负责指导本项研究。
  • Yang Yue (乐阳),和项目负责人名字同音,但由于相对低调网上暂无太多公开资料。

以及唯一来自交大的Zhaokai Wan(王肇凯),目前是上海交通大学四年级博士生。

本科毕业于北京航空航天大学,同一时期还拿到了北大经济学学士学位,当前也在上海人工智能实验室通用视觉团队(OpenGVLab)实习。

对于这项研究,团队作者特意在论文主页强调:这并不是说强化学习无用了。实际上,它在一些低采样场景仍旧非常实用。



以及有网友发现,有意思的是,DeepSeek在一年前的一篇论文中也提到了相关现象。

  • ……这些发现表明,强化学习通过使输出分布更加鲁棒来提升模型的整体表现,换言之,性能的提升似乎源于促进了正确答案出现在TopK结果中,而非源于基础能力的增强。



而这一次,结论被用论文完整论证了。

论文:
https://limit-of-rlvr.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进博会奢侈品区的暗流:为何“实用”成高净值人群新宠?

进博会奢侈品区的暗流:为何“实用”成高净值人群新宠?

市值Observation
2025-11-11 09:03:59
仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

颜小白的篮球梦
2025-11-11 18:16:24
持有大量现金,是非常危险的事情

持有大量现金,是非常危险的事情

请辩
2025-11-11 14:32:04
国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

奇思妙想草叶君
2025-11-10 22:45:50
廊坊拦婚车索要香烟事件后续来了,是敲诈勒索还是“低俗婚闹”?

廊坊拦婚车索要香烟事件后续来了,是敲诈勒索还是“低俗婚闹”?

Mr王的饭后茶
2025-11-11 14:46:23
一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

木蹊说
2025-11-11 16:06:19
亚马逊再裁员1.4万,有国内部门腰斩

亚马逊再裁员1.4万,有国内部门腰斩

慢放
2025-11-11 15:35:29
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

安珈使者啊
2025-11-11 14:21:13
刘銮雄长子移居英国晒近照,两鬓花白身姿健硕,在当地陪子女生活

刘銮雄长子移居英国晒近照,两鬓花白身姿健硕,在当地陪子女生活

揽星河的笔记
2025-11-11 19:10:19
随着广东大胜辽宁,全运会男篮决赛对阵出炉,超级黑马送四川出局

随着广东大胜辽宁,全运会男篮决赛对阵出炉,超级黑马送四川出局

侃球熊弟
2025-11-11 20:27:31
“内蒙古见义勇为反杀案”最新进展:内蒙古高院认可原审法院采信的“无资质”鉴定报告,驳回申诉!

“内蒙古见义勇为反杀案”最新进展:内蒙古高院认可原审法院采信的“无资质”鉴定报告,驳回申诉!

白鹿新闻
2025-11-11 17:35:03
江西省丰城市卫生健康委员会原党委书记、主任黄培忠被查

江西省丰城市卫生健康委员会原党委书记、主任黄培忠被查

鲁中晨报
2025-11-11 22:15:02
敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

不掉线电波
2025-11-11 11:08:03
湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

平老师666
2025-11-10 23:42:34
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
7.8吨冷冻猪脚“失踪”疑云:从广西运往广东竟在河南被扣押丨封面深镜

7.8吨冷冻猪脚“失踪”疑云:从广西运往广东竟在河南被扣押丨封面深镜

封面新闻
2025-11-11 00:21:26
宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

鋭娱之乐
2025-11-10 20:55:45
震惊!武汉某校招会现场,必胜客招服务员月薪2000-3000元引争议

震惊!武汉某校招会现场,必胜客招服务员月薪2000-3000元引争议

火山诗话
2025-11-10 18:25:34
4.99万!刘强东不给雷军留活路!

4.99万!刘强东不给雷军留活路!

广告创意
2025-11-10 17:24:49
疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

澳洲红领巾
2025-11-11 11:25:36
2025-11-11 22:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

教育要闻

最不建议去的三所英国大学!

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

时尚
数码
房产
公开课
军事航空

舒淇,东亚女孩的恨海情天

数码要闻

网易《永劫无间》集成英特尔XeSS 2.1,多平台提升游戏性能

房产要闻

海口湾,1300亩巨无霸地块登场!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版