网易首页 > 网易号 > 正文 申请入驻

强化学习远不是最优,CMU刚刚提出最大似然强化学习

建议尝试碎片化学习

0
分享至



机器之心编辑部

在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。

直觉上,开发者真正想要的其实很简单:让模型更有可能生成「正确轨迹」。从概率角度看,这等价于最大化正确输出的概率,也就是经典的最大似然(Maximum Likelihood)目标。

然而,一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实:

现实中广泛使用的强化学习,并没有真正在做最大似然优化。严格的理论分析显示,强化学习只是在优化最大似然目标的一阶近似—— 距离我们以为的最优训练目标,其实还差得很远。

正是基于这一观察,研究团队对强化学习的目标函数进行了重新审视,提出了最大似然强化学习(Maximum Likelihood Reinforcement Learning):将基于正确性的强化学习重新刻画为一个潜变量生成的最大似然问题,进一步引入一族以计算量为索引的目标函数,使训练目标能够逐步逼近真正的最大似然优化。



  • 论文标题:Maximum Likelihood Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2602.02710
  • 项目地址:https://zanette-labs.github.io/MaxRL/
  • Github 地址:https://github.com/tajwarfahim/maxrl

传统强化学习的「卡脖子」问题

在代码生成、数学推理、多步决策这些任务中,我们已经形成了一种几乎默认的共识:只要反馈是二值的、过程是不可微的,就用强化学习。

强化学习这套范式,支撑了从 AlphaGo 到大语言模型推理能力提升的一系列关键进展。

从端到端的角度看,强化学习就是给定一个输入,模型隐式地诱导出一个「成功概率」. 如果不考虑可微性约束,最自然、也最原则性的目标,就是最大似然

但论文研究团队发现:基于期望奖励的强化学习,其实只是在优化最大似然目标的一阶近似。更具体地说,最大似然目标在总体层面可以展开为一系列以 pass@k 事件为基的项,而标准强化学习只优化了其中的一阶项。

简单来说,强化学习并没有真正最大化「模型生成正确答案的概率」,而是在优化一个与真实似然存在系统性偏差的替代目标。

这也解释了一个广泛存在却难以言说的现象:强化学习早期进展迅速,但越到后期,性能提升越困难。

研究团队针对这一新发现,对「基于正确性反馈的强化学习」进行了重新刻画,论文的主要贡献如下:

  • 将基于正确性的强化学习形式化为一个潜变量生成的最大似然问题,并证明标准强化学习仅优化了最大似然目标的一阶近似。
  • 提出了一族以计算量为索引的目标函数,通过对 pass@k 事件进行 Maclaurin 展开,在期望回报与精确最大似然之间实现连续插值。
  • 推导出一种简单的on-policy 估计器,其期望梯度与该计算量索引的似然近似目标完全一致,这意味着增加采样真正改善了被优化的目标本身。

最大似然:真正改进优化目标

研究团队认为,最大似然估计在有监督学习中表现卓越,为什么不直接在强化学习中实现它?

上一节中的观察启示我们:可以构造一个随计算量变化的目标函数族,逐步引入更高阶项;随着可用计算资源的增加,该目标函数族将逐渐收敛到完整的最大似然目标。

论文通过一系列推导,将最大似然目标在失败事件方面进行麦克劳林展开:



展开式中的最大似然梯度很难用有限样本进行估计。

特别是,估计大 k 值的 pass@k 梯度需要越来越多的样本,尤其是在通过率 p 很小的情况下。这种有限样本的困难正是提出最大似然强化学习(MaxRL)的动机所在。

研究团队将 MaxRL 定义为一类强化学习方法,它们显式地以最大似然为目标,而不是以通过率为目标,同时在有限采样和不可微生成的条件下仍然可实现。下面我们考虑一种实现该目标的原则性方法。

考虑通过将麦克劳林展开式截断为有限阶来近似最大似然目标,然后估计该目标。对于截断级别 T ∈N,我们将固定输入 x 的截断最大似然目标定义为:



对其求导得到截断的总体梯度:



这定义了一族目标函数:T = 1 还原为强化学习,T → ∞ 还原为最大似然,中间的 T 值则在两者之间插值。因此,截断级别 T 直接控制了有助于学习的正确性事件的阶数。随着在 rollout 方面消耗更多的计算量,对更高阶梯度的估计变得可行。

换句话说: MaxRL 提供了一个原则性框架,用于通过增加计算量来换取对最大似然目标更高保真度的近似。

上述公式已经给出了一种可行的无偏估计思路:利用pass@k 梯度估计器,对有限级数中的每一项分别进行近似。在这一策略下,任何对 pass@k 估计器的改进,都会直接转化为对截断最大似然目标的更优梯度估计。

不过,在本篇论文中,研究者采取了一条不同的路径,将带来更为简洁的估计器形式,同时也提供了一个新的理解视角

最大似然目标的梯度可以写成如下的条件期望形式:



该定理表明,最大似然梯度等价于仅对成功轨迹的梯度进行平均。这一解释为构造具体的梯度估计器提供了直接途径:只需用采样得到的成功轨迹,对上述条件期望进行样本平均即可。

其核心洞见在于:最大似然目标的梯度可以表示为在「成功条件分布」下的期望。

因此,本文采用了一种简单的策略:从非条件化的策略分布进行采样,但只对成功轨迹进行平均,得到了强化学习风格的估计器,其具备随着 rollout 数的增加,对最大似然梯度的近似将不断改善的特性。

换言之,在 MaxRL 框架下,额外的计算资源不仅改善了估计质量,更直接改进了被优化的目标本身。

令人惊讶的效率进步

在实验中,这一改变带来了远超预期的收益。研究团队在多个模型规模和多类任务上,对 MaxRL 进行了系统评估,结果显示:MaxRL 在性能与计算效率的权衡上均稳定地优于现有强化学习方法。



实验结果直观展示了 MaxRL 在训练效率上的优势。在相同训练步数下,MaxRL 性能提升明显更快,并且随着 rollout 数的增加,MaxRL 持续受益。

这种优势并不只体现在训练阶段,相较于使用 GRPO 训练的模型,MaxRL 测试时的 scaling 效率最高可提升20 倍



在迷宫任务上,无论测试时的采样预算 k 取何值,随着训练 rollouts 的增加,MaxRL 都能持续降低 −log (Pass@k),而 GRPO 与 RLOO 的改进幅度则明显更早趋于平缓。这一结果直观地展示了 MaxRL 在训练阶段更优的性能–效率权衡。



比较在不同 pass@k 设置下各方法随训练中采样计算增加时的优化趋势,可以看到,对于 GRPO 与 RLOO,曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而 MaxRL 在不同 k 值下均保持持续下降,推动模型不断逼近一个更接近最大似然的优化目标。



在更大规模设置下,MaxRL 的优势依然保持稳定。这表明,MaxRL 所带来的改进并非依赖于特定规模或超参数设置,当训练规模扩大时,MaxRL 并未出现收益递减过快或优势消失的现象。



进一步的实验结果表明,MaxRL 的优势并不依赖于过于理想化的实验条件,即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL 仍然能够保持相对稳定的性能优势。

总体来看,MaxRL 为不可微、基于采样的学习问题提供了一种更为深入的解法。它通过一个随计算量自然扩展的目标框架,系统性地逼近真正的似然优化。

当优化目标本身可以随算力演进、逐步逼近最大似然,强化学习究竟会成为通往通用智能的长期答案,还是只是通往下一个训练范式的过渡方案?

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖北这事,是真闹大了!精神病院竟摇身一变成了“缅北园区”?

湖北这事,是真闹大了!精神病院竟摇身一变成了“缅北园区”?

青青子衿
2026-02-04 06:33:17
研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

观察宇宙
2026-02-05 21:28:21
反转太快!被曼联扫地出门的教练,竟成西甲豪门的香饽饽!

反转太快!被曼联扫地出门的教练,竟成西甲豪门的香饽饽!

澜归序
2026-02-05 07:47:24
传肯尼迪航母电弹已改中压直流?通用原子的智慧:一个决定就解决了

传肯尼迪航母电弹已改中压直流?通用原子的智慧:一个决定就解决了

星辰大海路上的种花家
2026-02-05 08:08:39
3-5爆大冷!没想到希金斯赛后这样评价赵心童:我今天输得不冤

3-5爆大冷!没想到希金斯赛后这样评价赵心童:我今天输得不冤

林子说事
2026-02-05 07:49:17
血债必须偿还,中俄已联手,俄率先开第一枪,日本14人被列为战犯

血债必须偿还,中俄已联手,俄率先开第一枪,日本14人被列为战犯

议纪史
2026-02-04 22:15:03
遥遥领先!世界首富马斯克身价超8000亿美元,是第二名的三倍

遥遥领先!世界首富马斯克身价超8000亿美元,是第二名的三倍

财闻
2026-02-05 13:19:30
业绩爆了!最高预计增长超463倍(附名单)

业绩爆了!最高预计增长超463倍(附名单)

数据宝
2026-02-05 11:57:21
侮辱忠良的“猪葛亮”公司名是如何过审的

侮辱忠良的“猪葛亮”公司名是如何过审的

极目新闻
2026-02-05 10:55:00
张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

兴趣知识
2026-01-31 11:31:03
演员江珊:当年我跟高曙光离婚后,在工作时又遇到了小9岁的靳东

演员江珊:当年我跟高曙光离婚后,在工作时又遇到了小9岁的靳东

南权先生
2026-02-03 15:55:46
赖清德天塌了:特朗普刚下总统令将大陆军,就连夜致电我方做承诺

赖清德天塌了:特朗普刚下总统令将大陆军,就连夜致电我方做承诺

爱下厨的阿酾
2026-02-05 18:47:18
世界大奖赛:赵心童两连鞭险胜希金斯进16强,中国名将终结五连败

世界大奖赛:赵心童两连鞭险胜希金斯进16强,中国名将终结五连败

世界体坛观察家
2026-02-04 21:58:44
不止发红包,AI开始雇人打工了:时薪上千元,2万人抢着给AI当「肉身」

不止发红包,AI开始雇人打工了:时薪上千元,2万人抢着给AI当「肉身」

爱范儿
2026-02-04 13:52:30
巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

流史岁月
2026-02-05 10:17:14
九院原院长刘仓理,被罢免全国人大代表

九院原院长刘仓理,被罢免全国人大代表

核电那些事
2026-02-05 13:04:55
华野一个奇怪现象:一旦粟裕准备打大仗,参谋长就刚好不在司令部

华野一个奇怪现象:一旦粟裕准备打大仗,参谋长就刚好不在司令部

潘撱旅行浪子
2026-02-04 19:27:20
俄乌打了四年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了四年,打穷了三个国家,富了三个国家,中国也在其中

眼底星碎
2026-01-27 15:19:37
人社部传来好消息!1.5亿退休老人高兴了,2026年养老金或再调整

人社部传来好消息!1.5亿退休老人高兴了,2026年养老金或再调整

姩姩有娱
2026-02-04 15:07:40
昨夜,Claude智能体压垮华尔街,近万亿刀市值蒸发

昨夜,Claude智能体压垮华尔街,近万亿刀市值蒸发

机器之心Pro
2026-02-05 11:25:57
2026-02-05 22:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12259文章数 142563关注度
往期回顾 全部

科技要闻

美团7.17亿元收购叮咚买菜

头条要闻

多家医美机构可"造腹肌" 有人花7万元打了83支玻尿酸

头条要闻

多家医美机构可"造腹肌" 有人花7万元打了83支玻尿酸

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

艺术
亲子
游戏
教育
军事航空

艺术要闻

他热爱绘画,生活中的每一刻都充满激情!

亲子要闻

萌娃向爸爸告状:妈妈欺负我,我现在急需一个冰激凌安慰

PS官号下场吃瓜?《绝地潜兵》发布神秘代码引热议

教育要闻

高考地理中的过渡性思维+尺度思想,太重要了

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版