网易首页 > 网易号 > 正文 申请入驻

DeepSeek提出通用奖励模型新方法SPCT,或将应用于R2

0
分享至

此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量,不过在此之前,DeepSeek 刚刚新发布的一项关于推理时缩放的新研究,或许能让我们窥到 R2 的一角。

当前主流的 AI 模型大多采用了强化学习(Reinforcement Learning,RL),尤其是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)作为后训练的核心方法。其核心在于训练一个奖励模型(Reward Model, RM)来模拟人类偏好,并指导 LLM 优化。但传统 RLHF 依赖大量人类标注,成本高昂且扩展性受限,尤其难以处理复杂和主观性强的任务。因此,构建更强大、更通用的奖励模型成为突破瓶颈的关键。

现有奖励模型范式,如标量评分(Scalar RM)或成对比较(Pairwise RM),在通用性和灵活性上存在局限。同时,随着推理时缩放(增加推理计算量)越发成为一个性能提升的重要途径,如果奖励模型能在推理时通过更多计算变得更准确,将直接提升 LLM 的对齐效果。

在此背景下,DeepSeek 联合清华大学的研究团队,提出了一种名为 DeepSeek-GRM 的通用奖励模型及其训练方法 SPCT(Self-Principled Critique Tuning,自我原则化批判调优),旨在解决通用奖励模型的构建难题,并系统探索利用推理时间缩放提升其性能的潜力。

相关论文以《通用奖励模型的推理时缩放》(Inference-Time Scaling for Generalist Reward Modeling)为题发表在预印本平台 arXiv 上。

研究首先关注奖励模型的结构范式。团队认为,为了实现通用性和充分利用推理时间缩放的潜力,需要一种更灵活、表达能力更强的范式。他们最终选择了生成式奖励建模(Generative Reward Modeling, GRM),并具体采用了逐点式(Pointwise)的评分机制。

Pointwise GRM 的工作方式与传统 RM 不同。它不直接输出分数或排序,而是针对输入的查询和一组(一个或多个)待评价的回答,生成一段结构化的评价文本。

这段文本通常包含两个主要部分:首先,模型会根据当前的输入内容,自适应地生成一系列评价原则,这些原则定义了评价的关注点和标准,有时还会附带各个原则的相对重要性(权重);其次,模型会基于这些生成的原则,对每一个回答进行详细的分析和批判,说明其优缺点。最后,通过预设的解析规则,从生成的批判文本中提取出对每个回答的具体评分。

这种 Pointwise GRM 范式展现出两大关键优势:一是输入灵活性。无论是评价单个回答,比较一对回答,还是需要对多个回答进行独立评分和排序,都可以使用统一的框架和模型进行处理,极大地拓宽了模型的应用范围。

二是推理时缩放潜力。由于模型的核心行为是生成文本,因此在推理时进行多次采样变得非常自然且有意义。每次采样可能产生不同的评价原则侧重和批判分析角度。通过综合这些多样化的评价结果,有望获得比单次生成更全面、更鲁棒、更精细的最终评分,为利用推理计算提升奖励质量提供了可能。

选择了合适的模型范式后,关键在于如何有效训练,使 GRM 具备强大的通用评价能力,并能真正从推理时间缩放中受益。为此,团队设计了提出了一种名为 SPCT 的学习框架。

SPCT 的核心思想在于,对于通用的评价任务,预先定义一套固定的、普适的评价标准(原则)是非常困难的。更有效的方式是让模型学会根据具体的输入(查询和回答)动态地、自适应地生成最相关的评价原则,并基于这些原则进行准确的批判。这意味着模型需要从被动应用规则,转变为主动构建评价框架。

研究团队通过初步实验验证了原则的重要性:直接使用模型生成的原则效果有限,但如果提供经过筛选的高质量原则,奖励模型的准确性会显著提高。这表明,能否生成“好的原则”是实现高质量奖励的关键。SPCT 的目标就是训练模型掌握这种生成高质量原则和准确批判的能力。

SPCT的训练过程包含两个阶段:

第一阶段是拒绝式微调(Rejective Fine-Tuning, RFT),作为模型的冷启动。此阶段使用预训练的 LLM 作为基础模型。研究人员利用包含查询、回答和人类偏好标签的奖励模型数据集,让模型尝试生成“原则+批判”文本并提取评分。

关键在于“拒绝式”采样策略:如果模型生成的评分结果与已知的人类偏好不符(例如,将较差的回答评为更优),则该次生成的训练数据被视为“不正确”而被拒绝;另一方面,如果对于某个输入,模型连续多次生成的评分结果都与人类偏好完全一致,这可能表明该任务过于简单,缺乏足够的学习信号,这类数据也会被视为“太容易”而被拒绝。

通过这种方式,模型得以专注于学习那些具有挑战性且能帮助其更好理解人类偏好的样本,从而快速掌握生成指定格式文本和初步区分回答优劣的能力。此阶段还结合了“提示式采样”(输入中包含最优答案信息)和“非提示式采样”,以平衡学习过程。

第二阶段是基于规则的在线强化学习(Rule-Based Online RL)。RFT 阶段提供了基础能力,但要让模型的原则生成和批判能力持续提升,适应更广泛场景,并为推理时间缩放做好准备,需要在线优化的介入。

在此阶段,GRM 模型作为 RL 中的策略,根据实时输入的查询和回答,生成原则、批判并提取评分。研究人员设计了一套简单的准确性规则作为奖励信号:如果模型给出的评分能够正确地将最优回答排在首位(与数据集标签一致),则获得正奖励(+1),否则获得负奖励(-1)。这个奖励信号用于更新 GRM 模型的参数。

这个在线过程持续激励模型去探索和学习如何生成那些能更可靠地区分回答质量的原则和批判逻辑。这种训练方式旨在内化模型的评价能力,使其在面对新情况时也能做出良好判断,这对于推理时间缩放的有效性至关重要。研究团队还发现,通过适当调整 KL 散度惩罚(一种防止模型在优化过程中偏离初始状态过远的正则化技术),可以有效保证生成文本格式的稳定性,并避免模型产生不必要的行为偏差。

经过 SPCT 训练的 DeepSeek-GRM 模型,具备了通过增加推理阶段计算量来提升性能的潜力。研究团队重点研究并实现了两种推理时间缩放策略:

第一种是基于投票的缩放(Voting with Generated Rewards)。这是一种相对直接的方法。对于给定的查询和一组待评价的回答,使用训练好的 DeepSeek-GRM 模型,设置一定的采样随机性(例如,temperature > 0),并行地进行 k 次独立的推理。每次推理都会生成一套可能不同的原则、批判和相应的评分。

最后,将这 k 次推理得到的评分进行聚合。对于 Pointwise 评分,通常的做法是将每个回答在 k 次采样中获得的分数相加或取平均,得到最终的综合评分,具体公式如下:

这种方法的好处在于,它不仅通过聚合多个评价视角来提高结果的鲁棒性,而且通过求和等方式,实际上增加了最终奖励值的范围和粒度(Granularity),使得模型能够更好地区分质量相近的回答。为了减少潜在的顺序影响,每次采样前还会对输入回答的顺序进行随机排列。

第二种是更进一步的元奖励模型引导的投票(Meta Reward Modeling Guided Voting)。简单投票假设每次采样的结果质量相当,但在实际中,部分采样可能由于随机性或模型局限而产生较低质量或有偏见的评价。

为了解决这个问题,研究团队提出训练一个元奖励模型(Meta Reward Model, Meta RM)。这个 Meta RM 的作用是评估 DeepSeek-GRM 生成的每一次“原则+批判”输出的质量或可靠性。Meta RM 本身通常也是一个简单的奖励模型(例如标量 RM),它通过学习判断 GRM 的输出是否与基准(如人类偏好)一致来进行训练。

在推理时,首先让 DeepSeek-GRM 生成 k 份评价结果,然后使用Meta RM对这 k 份结果进行评分,筛选出评分最高的 k_meta (k_meta ≤ k) 份结果,最后只基于这些被认为是高质量的评价结果进行投票聚合。这种方法通过引入一个“质量过滤器”,可以有效地剔除噪声采样,使得最终的聚合结果更加准确,从而更充分地发挥推理时间缩放的优势。

研究团队在多个主流的奖励模型评估基准(包括 Reward Bench, PPE, RMB, ReaLMistake)上,对 DeepSeek-GRM 模型(基于不同尺寸的基础模型)及其推理时间缩放策略进行了全面的实验评估,并与多种公开的和其他基线方法进行了对比。

实验结果清晰地展示了该研究方法的有效性:首先,即使在不进行推理时间缩放的基础设置下,经过 SPCT 训练的 DeepSeek-GRM 模型在整体性能上已优于同等规模的多种基线奖励模型,并展现出与一些大型闭源模型相竞争的实力。

其次,SPCT 训练方法的有效性也得到了证实,相比仅进行 RFT 冷启动,完整的 SPCT 流程带来了显著的性能提升,消融实验也证实了其关键组件(如原则生成、在线 RL)的贡献。

再次,DeepSeek-GRM 展现了优秀的推理时间缩放特性,随着采样次数 k 的增加,模型性能持续稳定提高,尤其是在 Meta RM 的引导下,提升效果更为明显。

值得关注的是,实验数据表明,通过推理时间缩放(例如,在 27B 模型上进行 32 次采样并使用 Meta RM),其性能提升的幅度有时可以达到甚至超过通过数倍增加模型参数(训练时间缩放)所带来的提升,显示出推理时间缩放在提升奖励模型质量方面可能具有更高的计算效率。

最后,相比一些偏科严重的标量或半标量模型,DeepSeek-GRM 在不同类型任务和评价维度上的表现更为均衡,展现出更好的通用性和更少的领域偏见。

不过,虽然 SPCT 在提升 GRM 的性能和推理时间可扩展性方面取得了显著成功,但该方法目前也存在一些局限性。

首先,生成式奖励模型的效率本质上落后于同等规模的标量奖励模型,这限制了其在在线强化学习管道中的大规模使用。不过,由于他们采用并行采样进行推理时间扩展,使用合理数量(如 8 个)样本进行奖励生成的延迟不会显著增加。

其次,在特定领域(如可验证任务)上,DeepSeek-GRM 仍落后于标量模型。这可能是因为标量奖励模型捕获了推理查询和回答的隐藏特征,而 GRM 需要更强的推理能力来全面检查回答。不过,标量奖励模型存在严重的偏差和可扩展性问题。

研究团队指出,未来的研究方向包括:工具集成、原则和批评生成范式的分解、在 LLM 离线评估中的应用以及长视野推理的探索。他们相信,具有增强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口,推动 LLM 后训练和推理的前沿发展。

参考资料:

1. https://arxiv.org/abs/2504.02495

排版:KIK

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新秀榜:克努佩尔升至榜首 状元弗拉格位列第三

新秀榜:克努佩尔升至榜首 状元弗拉格位列第三

北青网-北京青年报
2025-11-13 07:47:17
大学念成高中,“本升高”成功让大学生崩溃

大学念成高中,“本升高”成功让大学生崩溃

酷玩实验室
2025-11-12 14:53:13
陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

日不西沉
2025-11-12 05:45:28
彼得·德鲁克逝世20周年|管理学家是大师还是江湖术士?

彼得·德鲁克逝世20周年|管理学家是大师还是江湖术士?

澎湃新闻
2025-11-11 16:40:29
拿着顶薪600万,全场14中1拿2分,球迷炮轰:颁奖礼还那么开心

拿着顶薪600万,全场14中1拿2分,球迷炮轰:颁奖礼还那么开心

篮球国度
2025-11-13 08:56:49
港媒起标题能有多损?网友:港媒不愧是标题党鼻祖!

港媒起标题能有多损?网友:港媒不愧是标题党鼻祖!

解读热点事件
2025-11-11 00:10:03
曾琦前夫真容流出!两鬓斑白显沧桑,网友:突然理解曾主任了

曾琦前夫真容流出!两鬓斑白显沧桑,网友:突然理解曾主任了

热点菌本君
2025-11-09 15:36:21
闹大了:退貂女子全网社死,商家再放猛招:不计成本,追究到底

闹大了:退貂女子全网社死,商家再放猛招:不计成本,追究到底

诗意世界
2025-11-12 18:03:04
2025年度中央安全生产考核巡查正式启动!多通报、多暗访贯穿全过程

2025年度中央安全生产考核巡查正式启动!多通报、多暗访贯穿全过程

红星新闻
2025-11-11 11:33:11
李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

白面书誏
2025-11-12 12:33:44
全运乒乓11月13日赛程:混双半决赛与成年组单打1/4决赛开始进行

全运乒乓11月13日赛程:混双半决赛与成年组单打1/4决赛开始进行

湘楚风云
2025-11-13 04:33:29
血战波城,俄乌全力以赴打败对方

血战波城,俄乌全力以赴打败对方

史政先锋
2025-11-12 14:52:54
日本最终选择了妥协!

日本最终选择了妥协!

蛙斯基娱乐中
2025-11-13 08:10:03
点赞!18岁全红婵首开直播未关闭打赏,随后将4.3万收入全部捐出

点赞!18岁全红婵首开直播未关闭打赏,随后将4.3万收入全部捐出

风过乡
2025-11-13 07:38:29
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
太冷血了!人死了不报警,竟偷偷运回家摆成睡姿,欲8万了结此事

太冷血了!人死了不报警,竟偷偷运回家摆成睡姿,欲8万了结此事

火山诗话
2025-11-13 08:35:53
全运会爆大冷!女单4强赛对阵出炉,王艺迪大胜晋级,陈梦大战蒯曼

全运会爆大冷!女单4强赛对阵出炉,王艺迪大胜晋级,陈梦大战蒯曼

衔春信
2025-11-13 08:59:09
太离谱!男子停车总显示“已入场”,一查同小区竟有5辆车套牌

太离谱!男子停车总显示“已入场”,一查同小区竟有5辆车套牌

极目新闻
2025-11-12 21:26:53
破案了,是美国商务部长在阻挠

破案了,是美国商务部长在阻挠

观察者网
2025-11-12 23:19:28
G8541高铁让座吵到热搜:老人质问你是人吗,小伙回怼我是你爹

G8541高铁让座吵到热搜:老人质问你是人吗,小伙回怼我是你爹

诗意世界
2025-11-12 20:39:12
2025-11-13 09:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15852文章数 514290关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

美国次级车贷违约率创历史新高

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

房产
游戏
亲子
本地
公开课

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

《天国:拯救2》DLC已完结 战马工作室暗示新作将至

亲子要闻

逗妈妈玩一下

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版