网易首页 > 网易号 > 正文 申请入驻

生成式Critic重新定义LLM强化学习信用分配

0
分享至



本文第一作者单子康是北京大学二年级在读博士生,研究方向为大语言模型与强化学习,曾于 ICML 2025 以共同一作发表 Spotlight 论文,本工作为微软亚洲研究院实习期间完成。本文最后一作赵立是微软亚洲研究院高级研究员,现任微软亚洲研究院机器学习组负责人。

强化学习(RL)已经成为大语言模型(LLM)后训练阶段最重要的技术之一。早期伴随着 ChatGPT 的出圈,价值对齐 RL 受到广泛关注;DeepSeek-R1 以大规模可验证 RL 激发了模型的推理能力,引领了推理 RL 的热潮;如今的智能体(Agent)训练更是离不开 RL。

可以说,大模型时代的能力演进,很大程度上是 RL 范式不断深化应用的过程。

然而,RL 有一个经典难题始终悬而未决:信用分配(credit assignment)。模型生成了一段长长的回答,最终收到一个奖励信号。但这段回答里,哪些步骤真正做出了贡献?哪些是冗余的,甚至引入了错误?信用分配不精准,训练信号就只能保持稀疏,模型的学习效率也就因此受限。



经典 RL 算法 PPO(Proximal Policy Optimization)的解法是训练一个价值模型(Critic),估计序列中每个 token 的价值(Value),借此将信用精确分配到每一步。然而在 LLM 的实践中,随着生成序列越来越长、任务越来越复杂,Critic 的训练逐渐变得不稳定,效果也难以保证。

于是,研究者转向更简单的无 Value 方法例如 GRPO,利用奖励来构造每个轨迹的优势,广播到每一步上,相当于将优化过程简化为一个多臂老虎机问题。尽管训练流程简洁了许多,这种简化的代价是彻底放弃了细粒度的信用分配。随着推理链越来越长、Agent 任务越来越复杂,这一代价也变得越来越难以接受。

这不禁让人重新审视一个根本问题:价值模型真的不堪一用吗?还是我们一直没能正确地实现它?

微软亚洲研究院联合北京大学的研究者,给出了答案。



  • 论文标题:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
  • 论文链接:https://arxiv.org/abs/2604.10701

判别式 Critic 的根本局限

传统 Critic 是「判别式」的:输入一个状态,输出一个标量作为价值估计。这一设计看似自然,却暗藏着一个深层的架构矛盾。

研究者将两个已知的结论结合,得出了一个颇具启发性的推论。其一,LLM 生成过程所对应的马尔可夫链的价值函数的精确建模,在计算复杂度上属于 P-complete。其二,Transformer 单次前向传播的表达能力上界已被证明为 TC⁰,一个远弱于 P-complete 的复杂度类。

将这两个结论结合来看,判别式 Critic 在 LLM 任务上的持续失败或许并非偶然:价值建模本质上依赖大量顺序推理,难以通过简单的并行前向传播实现。判别式 Critic 是在用一个表达能力受限的架构,去拟合一个理论上更复杂的函数。更关键的是,这一错配无法通过规模化来弥补:更多的参数、更多的数据或更多的计算,对于表达能力层面的鸿沟并无根本帮助。



研究者通过实验印证了这一推断。固定一个目标价值函数,让判别式 Critic 去拟合,其误差与简单的平均奖励基线相比并无显著优势。更重要的是,将模型规模从 0.6B 扩展到 14B,拟合误差几乎没有改善。与此同时,判别式 Critic 在不同随机种子下表现出极大的波动,说明其表现高度依赖初始化,而非稳健地收敛。

不可扩展加上不稳定,共同指向同一个结论:判别式 Critic 的问题并非调参不当,而是架构层面的固有不足。

生成式 Critic:让价值估计变得可推理

既然判别式架构存在本质局限,一个自然的问题是:换成生成式会怎样?

生成式 Critic 的核心思路是:不直接输出一个标量,而是先使用思维链推理,再给出价值的估计。这一思路与生成式奖励模型有相通之处,后者已在多项工作中被验证具有更强的鲁棒性和泛化能力。从理论上看,显式的推理链可以有效提升模型的表达能力,从而绕过 TC⁰的表达能力上界约束,为价值建模开辟新的空间。

但价值建模比奖励建模面临更深层的挑战:价值是与当前策略深度绑定的。同一个中间状态,对于能力较弱的策略而言可能价值很高,而对于能力更强的策略则已不值一提。奖励模型无需感知策略,但价值模型必须「知道自己在评估谁」。这一挑战在一个具体对比中体现得格外清晰:生成式奖励模型的训练通常以蒸馏强大的通用模型为起点,但对于价值建模而言,并不存在天然的「价值先知」可供蒸馏。

研究者发现,即便是能力极强的通用大模型例如 GPT-5,直接被用作价值模型时,其拟合误差甚至远不如判别式 Critic。原因正在于它对被评估的策略一无所知,无从判断同一状态对当前策略意味着什么。

为此,研究者引入了上下文条件注入(In-Context Conditioning)机制:在每次 Critic 推理时,将当前策略的模型规模与实时更新的滑动平均成功率一并注入上下文,使 Critic 能够感知并基于当前策略的能力水平开展分析。消融实验表明,这一简单机制能够有效降低价值估计误差。



在训练流程上,由于缺乏可供直接蒸馏的高质量标注,研究者设计了包含 SFT 和 RL 的两阶段价值预训练方案。SFT 阶段作为热身,帮助模型建立以估计价值为目标的基本推理模式;RL 阶段则通过真实奖励信号对初始偏差进行矫正,将推理能力真正落地到准确的价值估计上。经过这两阶段预训练的生成式 Critic,可以作为可靠组件进入与策略的联合 RL 训练。

实验与分析

研究者将使用生成式 critic 的 PPO 命名为 GenAC,在数学推理任务上展开了实验,并通过 6 个评测标准进行深度评测。为了比较价值函数的影响,研究者比较了使用判别式 Critic 的 VC-PPO,以及两种主流的无 Value 方法 GRPO 和 RLOO。



GenAC 以 51.90% 的平均准确率领先所有基准方法。从训练动态来看,价值建模本身就能带来显著优势:VC-PPO 与 GenAC 在训练早期均表现出更高的样本效率,模型能力迅速提升,而无 Value 方法由于细粒度信用分配的缺失,早期学习相对缓慢。然而,VC-PPO 的领先优势随着训练推进而逐渐收窄,最终收敛表现与无 Value 方法相差无几;GenAC 则截然不同,不仅始终保持领先,与其他方法的差距还在训练后期持续扩大。

是否进行价值建模影响的是早期的学习速率,而 Critic 的质量则决定训练能走多远。



那么,生成式与判别式 Critic 之间的差异,究竟通过什么机制传导到最终的 RL 效果上?研究者从拟合误差之外的角度进一步展开分析。



首先是相对排名实验:针对相同状态的一组候选片段,Critic 需要识别出哪个候选的价值最高。随着候选数量增加,生成式 Critic 的排名准确率轻微下降,而判别式 Critic 则明显退化。这意味着在区分相近候选的细微优劣时,生成式 Critic 能给出更可靠的相判断,而优势估计的精度正是依赖于此。

其次是分布外泛化实验:要求 Critic 对分布外数据源的价值函数进行估计。生成式 Critic 的误差相比判别式基线大幅下降,且分布偏移越大,两者的差距越悬殊。这说明生成式 Critic 具有更强的泛化能力,当策略通过探索进入新状态时,它依然能够给出可靠的信用分配,在关键的探索数据上保持有效的学习。

最后是定性分析:Critic 需要通过价值估计反映思维链中出现的错误。在这个例子中,判别式 Critic 在错误步骤前后的价值估计没有明显区别,而生成式 Critic 明确指出了错误,并基于此给出了更低的价值估计。这种细粒度的错误定位能力,正是精准信用分配在单步层面的直接体现。



结语

价值模型的失败,从来不是价值建模这一思路本身有问题,而是判别式架构的先天局限,使一个具有潜力的想法难以落地。生成式 Critic 通过引入显式推理、策略感知和稳健的两阶段训练,重新展示了细粒度信用分配在 LLM 强化学习中的可行性。随着推理模型与 Agent 任务的持续推进,信用分配的质量只会变得越来越关键。这件事值得被认真对待,而 GenAC 展示了一条可行的路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美之争结束?现实比想象残酷:美国并非输了,是连牌桌都下不去

中美之争结束?现实比想象残酷:美国并非输了,是连牌桌都下不去

梦想的现实
2026-05-01 10:15:41
我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

霁寒飘雪
2026-04-01 07:40:42
央视回绝国际足联,香港拿下世界杯转播权过去一天,球迷不想说话

央视回绝国际足联,香港拿下世界杯转播权过去一天,球迷不想说话

阿雹娱乐
2026-05-09 16:14:40
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
季后赛打没大合同的7位球星:小里5年2.4亿飞了,哈登3000万悬了

季后赛打没大合同的7位球星:小里5年2.4亿飞了,哈登3000万悬了

老郎体育汇
2026-05-09 12:05:07
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
北京抵达广东主场赛前训练 李楠连续命中三分“小李飞刀”宝刀未老

北京抵达广东主场赛前训练 李楠连续命中三分“小李飞刀”宝刀未老

狼叔评论
2026-05-09 11:10:03
充电速度“行业垫底”,特斯拉的充电这么慢!为何没有车主吐槽?

充电速度“行业垫底”,特斯拉的充电这么慢!为何没有车主吐槽?

少数派报告Report
2026-05-09 04:41:12
民航人要注意“汉坦病毒”,一空姐被感染

民航人要注意“汉坦病毒”,一空姐被感染

中国民航人
2026-05-08 12:10:03
罕见不展示重型装备,严防乌克兰“突然袭击”,俄罗斯今天举行胜利日阅兵

罕见不展示重型装备,严防乌克兰“突然袭击”,俄罗斯今天举行胜利日阅兵

环球网资讯
2026-05-09 06:55:19
与台“断交”!巴拉圭总统窜台不到24小时

与台“断交”!巴拉圭总统窜台不到24小时

胡鋇就爱无拘无束
2026-05-09 10:09:07
爆! “开市客” 互撕后一方注销!广州开市客悬了???

爆! “开市客” 互撕后一方注销!广州开市客悬了???

趣味萌宠的日常
2026-05-08 15:52:43
鲁比奥临时接替白宫新闻秘书工作,为不被拒之门外已找好台阶

鲁比奥临时接替白宫新闻秘书工作,为不被拒之门外已找好台阶

靓仔情感
2026-05-08 18:44:22
租下 22 万颗英伟达 GPU 的同一天,Anthropic 向谷歌 TPU 承诺了 2000 亿美元

租下 22 万颗英伟达 GPU 的同一天,Anthropic 向谷歌 TPU 承诺了 2000 亿美元

钛媒体APP
2026-05-07 10:00:21
立夏后,建议中老年少吃3白,多吃3黄!养心安神,腿脚有劲

立夏后,建议中老年少吃3白,多吃3黄!养心安神,腿脚有劲

江江食研社
2026-05-08 15:35:06
峨眉山男子推猴后续:正脸曝光已社死,官方追责,工作或将不保

峨眉山男子推猴后续:正脸曝光已社死,官方追责,工作或将不保

观察鉴娱
2026-05-08 10:59:56
撒贝宁一家重庆旅游,蹲地上给女儿拍照超宠爱,李白站一旁很悠闲

撒贝宁一家重庆旅游,蹲地上给女儿拍照超宠爱,李白站一旁很悠闲

一娱三分地
2026-05-09 17:06:42
深夜买醉?姆巴佩和女友被拍到凌晨现身酒吧

深夜买醉?姆巴佩和女友被拍到凌晨现身酒吧

懂球帝
2026-05-09 07:30:10
日媒透露:日方正私下协调,将派经济代表团访俄

日媒透露:日方正私下协调,将派经济代表团访俄

参考消息
2026-05-09 14:26:34
碰掉充电器就绝食,穷人家养出长公主,到底是公主病还是抑郁症?

碰掉充电器就绝食,穷人家养出长公主,到底是公主病还是抑郁症?

今朝牛马
2026-05-08 16:14:02
2026-05-09 18:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12956文章数 142646关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

韩巨头上演史无前例造富狂欢 员工人均将分320万奖金

头条要闻

韩巨头上演史无前例造富狂欢 员工人均将分320万奖金

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

数码
游戏
教育
家居
艺术

数码要闻

当贝2S Ultra:AI智养+干湿分离+全色域灯,养鱼一步到位

NS2涨价争议汹汹!老任难堪:会用游戏质量证明自己

教育要闻

时间定了!雅思纸笔考退出,全面机考备考建议来了!

家居要闻

菁英人居 全能豪宅

艺术要闻

齐白石 紫藤蜜蜂

无障碍浏览 进入关怀版