网易首页 > 网易号 > 正文 申请入驻

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理

0
分享至

基座模型天花板,困住强化学习。

作者丨郑佳美、梁丙鉴

编辑丨马晓宁

清华和上交的最新论文中,上演了一场 “学术打假” 的戏码。文中研究者们对当前 “纯 RL 有利于提升模型推理能力” 的主流观点提出了相反的意见。

通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤其是在赋予模型超越自身原有能力方面,效果可能并非像人们普遍认为的那样“无懈可击”。

消息一出,网友们纷纷下场站队。

有人认为这篇文章抓住了 RL 自身的漏洞,虽然提高了采样效率,但它似乎在推理方面存在不足,未来我们需要新的方法来释放 LLM 的全部潜力。

也有人表示,或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

质疑声之外,RL 的追随者也在为“信仰”发声:这种说法是错的,验证远比生成简单的多。

也有网友表示,这更像是奖励结构的缺陷,而非 RLVR 本身的问题。如果用二元奖励结构,出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题,甚至还能激励更好的推理。

1

强化学习:擅长加速,不擅长开路

实验中,研究人员在三个具有代表性的领域进行了实验,来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的影响。

在数学任务实验中,研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其经过 RL 训练的变体。他们通过分析 pass@k 曲线,比较了基础模型与 RL 模型的表现,发现虽然 RL 在低 k 值下提升了模型的准确性,但在高 k 情况下却显著降低了问题的覆盖范围。

此外,研究者还手动审查了模型生成的 CoT(Chain of Thought)推理过程,以确认正确答案是推理得出而非纯属运气。最后,他们还研究了采用 Oat-Zero 方法训练的模型,并对数据集进行了过滤,剔除容易猜测的问题,从而聚焦于更具挑战性的样本。

整体结果显示,尽管 RL 能在初始准确率上带来提升,基础模型在推理覆盖率方面仍表现更为稳健。

在编码任务实验中,研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能,并根据预定义的测试用例评估模型的正确性。

结果显示,RLVR 提升了单样本 pass@1 的分数,但在较高采样数(k = 128)时,模型的覆盖率有所下降。与此相比,原始模型在较大 k 值下表现出了持续改进的潜力,而 RLVR 的性能则趋于平稳。这表明,尽管 RLVR 提高了模型的确定性准确性,但在探索多样性方面存在一定的限制。

在视觉推理实验中,研究团队在过滤后的视觉推理基准(MathVista 和 MathVision)上评估了 Qwen-2.5-VL-7B,删除了多项选择题,聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致,表明原始模型已能够解决广泛的问题,即便是在多模态任务中也同样如此。

跨领域的一致性表明,RLVR 提升了模型的推理能力,同时并未从根本上改变模型的问题解决策略。

2

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在重要缺陷。如果模型在少数几次尝试后未能解决难题,但却本可以通过更多次的采样获得成功,此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源,它的性能能否与经过强化学习训练的模型相匹配?

为精准评估大语言模型的推理能力边界,研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题,从模型中采样k个输出,若至少一个样本通过验证,该问题的pass@k 值为1,否则为0。数据集上的平均 pass@k 值反映了模型在 k 次试验内可解决的数据集问题比例,能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法,对评估数据集D中的每个问题生成 n 个样本(n ≥ k),统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务,pass@k 值能准确反映模型是否能解决问题。

然而,随着 k 增大,数学问题中 “黑客” 行为可能凸显,即模型可能生成错误的推理过程,却在多次采样中偶然得出正确答案,这一情况常被以往指标忽视。为此,他们筛选出易被 “黑客” 攻克的问题,并手动检查部分模型输出的 CoT 正确性。结合这些措施,他们严格评估了 LLM 的推理能力极限。

3

当强化学习不再“强化”

清华与上交的这篇论文,为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力,指的是模型是否拥有解决某类问题的潜质与逻辑链条;效率,则是在给定的能力范围内,模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现(比如在低采样次数下更快给出正确答案),但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反,在高采样场景中,RL 带来的“收敛性”可能牺牲了答案的多样性,从而错失了解决更多难题的机会。

强化学习更像是一种能力调控器,而非能力创造器。它可以让模型更擅长做已经能做的事,但难以让模型做出“原本不会的事”。正因如此,若将 RL 简单视为提升模型通用智能的万能钥匙,未免过于乐观。接下来的技术路线,可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计,而非过度依赖下游的策略微调。

总的来说,这项研究的意义不在于“RL 无用”的结论,而在于它揭示了在过热预期背后,强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时,回归问题本质,用更清晰的标准衡量“能力的提升”究竟意味着什么。

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Lululemon涉嫌使用永久化学物质被调查,研究显示或致癌

Lululemon涉嫌使用永久化学物质被调查,研究显示或致癌

鲁中晨报
2026-04-14 07:16:33
外交攻势升级!伊朗要求中东五国赔偿战争损失 背后有何考量?

外交攻势升级!伊朗要求中东五国赔偿战争损失 背后有何考量?

财联社
2026-04-14 10:04:36
黄河特大桥垮塌,13死3失联!劣质螺栓流入国家级工程,全流程管理烂透了

黄河特大桥垮塌,13死3失联!劣质螺栓流入国家级工程,全流程管理烂透了

火锅局
2026-04-14 11:40:24
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

知鉴明史
2026-04-14 06:45:09
大批“五一”航班突然取消背后:高油价下的停飞潮正在全球蔓延

大批“五一”航班突然取消背后:高油价下的停飞潮正在全球蔓延

第一财经资讯
2026-04-14 12:55:07
特朗普“反向封锁”霍尔木兹海峡,伊朗8000万人恐难撑过一个月

特朗普“反向封锁”霍尔木兹海峡,伊朗8000万人恐难撑过一个月

民间胡扯老哥
2026-04-14 06:00:51
一路虎冲撞多车?衢州警方:2人受伤、8车受损,涉事男子被刑拘

一路虎冲撞多车?衢州警方:2人受伤、8车受损,涉事男子被刑拘

界面新闻
2026-04-14 13:50:22
许家印当庭认罪,家族还有多少资产没追回?

许家印当庭认罪,家族还有多少资产没追回?

凤凰网财经
2026-04-14 12:59:36
最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

风向观察
2026-04-14 14:25:12
伊朗伊斯兰革命卫队:若冲突继续将启用新作战方法

伊朗伊斯兰革命卫队:若冲突继续将启用新作战方法

每日经济新闻
2026-04-14 07:57:57
最后的疯狂:许家印被抓捕的失控三秒钟

最后的疯狂:许家印被抓捕的失控三秒钟

财经保探长
2026-04-09 22:30:38
女子买10瓶五粮液8瓶假,官方罚单已出!商家:你是“职业打假”人,我不赔

女子买10瓶五粮液8瓶假,官方罚单已出!商家:你是“职业打假”人,我不赔

大风新闻
2026-04-14 10:20:06
西班牙首相夫人正式被控多项腐败罪行

西班牙首相夫人正式被控多项腐败罪行

Nee看
2026-04-14 10:07:20
太阳报:伊朗女足队长在澳大利亚避难,全部财产已被伊朗当局没收

太阳报:伊朗女足队长在澳大利亚避难,全部财产已被伊朗当局没收

懂球帝
2026-04-14 08:51:06
裘德·洛花1个月变成普京,新片预告片里连眼神都换了

裘德·洛花1个月变成普京,新片预告片里连眼神都换了

影视情报室
2026-04-14 08:05:09
恒大集团许家印一审认罪

恒大集团许家印一审认罪

地产微资讯
2026-04-14 12:57:12
北京迎来一位贵客,亲华派掌权大局已定,特朗普图谋全盘落空

北京迎来一位贵客,亲华派掌权大局已定,特朗普图谋全盘落空

第一军情
2026-04-14 11:33:37
请陈芋汐正面回应:在知情的情况下,为何不退出282群?

请陈芋汐正面回应:在知情的情况下,为何不退出282群?

开成运动会
2026-04-13 20:23:15
比亚迪紧急回应工厂起火

比亚迪紧急回应工厂起火

浙江之声
2026-04-14 10:38:59
交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

复转这些年
2026-04-14 12:14:50
2026-04-14 15:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7187文章数 20744关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

艺术
数码
本地
公开课
军事航空

艺术要闻

这位美女画家的夏天竟如此梦幻

数码要闻

TCL T7M Pro体验:SQD-Mini LED技术加持,客厅换代首选

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版