网易首页 > 网易号 > 正文 申请入驻

清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

0
分享至

赵俭,北京邮电大学本科三年级,研究方向为大语言模型。刘润泽,清华大学硕士二年级,师从李秀教授,研究方向为大语言模型与强化学习,特别关注大模型推理能力增强与测试时间扩展,在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文,个人主页:ryanliu112.github.io。

随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。

那么,是否有办法通过测试时拓展提升过程奖励模型的过程监督推理能力呢?

为此,清华大学联合上海 AI Lab 提出生成式过程奖励模型 ——GenPRM,将生成式思维链推理(CoT)与代码验证相结合,并引入测试时拓展机制,为过程监督推理提供了新思路。与 DeepSeek 近期发布的逐点生成奖励模型(GRM)类似,GenPRM 也通过生成式建模和测试时扩展增强奖励模型的推理能力,但 GenPRM 更专注于过程奖励模型,弥补了 GRM 在过程监督方面的不足。

论文标题:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

论文链接:http://arxiv.org/abs/2504.00891

项目链接:https://ryanliu112.github.io/GenPRM

GitHub:https://github.com/RyanLiu112/GenPRM

HuggingFace:https://huggingface.co/GenPRM

在 ProcessBench 等数学推理基准的测试中,GenPRM 展现出惊人实力:仅 1.5B 参数的模型通过测试时扩展超越 GPT-4o,而 7B 参数版本更是击败 72B 参数的 Qwen2.5-Math-PRM-72B,同时表现出强大的步骤级批评能力。

GenPRM:从评分到推理,再到测试时扩展

现有过程奖励模型依赖分类器式的标量评分,这种 “黑箱” 机制导致两个核心问题:一是无法解释错误根源,仅能判断步骤 “对错”,却无法解释 “为何错”,二是无法通过增加模型测试时间计算资源提升判断精度。

生成式过程奖励模型

为了突破这些瓶颈,GenPRM 引入生成式设计,彻底革新过程监督范式:

思维链推理:GenPRM 模拟人类解题时的逻辑推导,对每一步推理进行自然语言分析,提供透明、可解释的步骤评估。

代码验证:为确保推理的可靠性,GenPRM 还会生成并执行对应数学运算的 Python 代码,将文字推导与实际计算结果交叉验证。例如,在求解三角函数表达式时,模型先分析角度转换的合理性,再通过代码计算具体数值,避免 “符号推导正确但计算失误” 的情况。

其奖励推理过程可以表示为:

其中 s_t 为当前状态,a_t 为当前步骤,v_1:t−1 和 f_1:t-1 分别为之前步骤的推理过程和代码执行反馈,v_t 和 f_t 为当前步骤的推理与反馈。这种 “先解释、再验证” 的机制不仅能判断对错,还能提供步骤级别的批评改进建议和严谨准确的反馈,大幅提升了过程监督的深度和实用性。

测试时扩展

在推理阶段,GenPRM 通过并行采样 N 条推理路径,综合多条路径的奖励值并取平均,得到最终奖励:

这种策略充分利用额外计算资源,进一步提升评估精度,使小模型也能在复杂任务中表现出色。

数据高效:23K 样本背后的合成秘密

GenPRM 的另一个亮点是仅使用 23K 训练样本就取得了优异的性能,远少于许多模型动辄数十万级的数据量(如 PRM800K 需 80 万人工标注),其高效性源于独特的数据合成方法,结合相对进步估计(RPE)和代码验证,生成高质量的过程监督数据。

通过相对进步估计改进硬估计

传统过程奖励模型通过蒙特卡罗(MC)分数进行硬估计,研究者观察到尽管许多步骤的 MC 分数大于 0,但这些步骤是却存在错误。RPE 通过比较当前状态和上一状态的 MC 分数,用 “进步幅度” 评估每步质量,比传统硬标签更准确。其形式化如下:

其中,MC (s_t, a_t) 表示当前步骤的蒙特卡罗分数,MC (s_t) 表示上一步骤的蒙特卡罗分数。若进步幅度低于阈值(ϵ=0.8),则判定步骤无效;若首步错误(MC 为 0),后续步骤分数归零。这种方法显著提升标签准确性,避免了硬估计的误判。

代码验证驱动的数据合成

研究者利用 QwQ-32B 模型合成 CoT 和代码验证推理数据,通过在 Python 环境中真实执行代码重复检验 CoT 推理过程。使用共识过滤(过滤率 51%),保留高质量过程监督数据,最终得到 23K 训练数据集。

测试时扩展:小模型的逆袭

在 ProcessBench 过程监督基准测试中,GenPRM 展现出显著优势:

仅用 23K 训练数据的 1.5B GenPRM,通过多数投票(Maj@8)的测试时计算扩展策略,其 F1 分数超越 GPT-4o;

7B 版本的 GenPRM 以 80.5% 的 F1 分数一举超过 72B 参数的 Qwen2.5-Math-PRM-72B。

这一结果证明,测试时扩展能有效放大过程奖励模型的能力,使小模型实现性能飞跃。

此外,GenPRM 同样适用于策略模型测试时扩展。通过 Best-of-N 实验,GenPRM-7B 展现出相比于基线方法更加优异的筛选能力,并可通过测试时扩展进一步增强过程监督能力。

从验证器到批评者:过程奖励模型新范式

GenPRM 不仅能当 “裁判”,作为验证器(Verifier)筛选答案,还能当 “教练”,作为步骤级别的批评模型(Critic)指导策略模型迭代优化原始回答。实验表明,GenPRM 通过 3 轮反馈将策略模型的回答准确率从 45.7% 提升至 51.5%,性能提升达到基线方法的 3.4 倍。

这种 “生成 - 批评 - 反思” 的闭环,验证了 GenPRM 不仅可以作为验证器验证答案的准确性,还可以作为批评者,为模型完善自身输出提供逐步关键指导,为大语言模型的自我改进提供了可解释的技术路径。

研究者已开源代码、模型及 23K 训练数据集。该工作为大语言模型的可解释过程监督提供了新思路,未来可扩展至代码生成、多模态推理等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

奇妙的本草
2026-01-02 12:00:45
纪委强调:公务员醉驾不再一律“双开”,这3类情节可不追刑责

纪委强调:公务员醉驾不再一律“双开”,这3类情节可不追刑责

细说职场
2025-07-10 06:55:06
布克绝杀联盟第一,仍无缘日最佳!你碰到41岁创3项纪录的詹姆斯

布克绝杀联盟第一,仍无缘日最佳!你碰到41岁创3项纪录的詹姆斯

毒舌NBA
2026-01-05 13:58:36
哥伦比亚总统让特朗普“放马过来”!公开喊话:如果你想把我关进监狱,那就试试看,哥伦比亚人民将走上街头捍卫我

哥伦比亚总统让特朗普“放马过来”!公开喊话:如果你想把我关进监狱,那就试试看,哥伦比亚人民将走上街头捍卫我

扬子晚报
2026-01-05 14:38:13
惨!真的太惨!福建20岁女网红,被丢弃柬埔寨街头,膝盖疑似骨折

惨!真的太惨!福建20岁女网红,被丢弃柬埔寨街头,膝盖疑似骨折

单手搓核弹
2026-01-05 09:48:46
“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

娱乐团长
2026-01-05 16:23:19
阿莫林闪电下课内幕揭秘,可获补偿1200万!曼联将选新帅冲击欧冠

阿莫林闪电下课内幕揭秘,可获补偿1200万!曼联将选新帅冲击欧冠

罗米的曼联博客
2026-01-06 00:50:03
1967年飞行员追敌机时一紧张误投减速伞,却让上级直接给他一等功

1967年飞行员追敌机时一紧张误投减速伞,却让上级直接给他一等功

宅家伍菇凉
2025-12-23 09:00:03
1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

源溯历史
2026-01-05 16:24:20
孟加拉国新发现,凡是靠在中国旁边的国家,人口大部分都是上亿的

孟加拉国新发现,凡是靠在中国旁边的国家,人口大部分都是上亿的

扶苏聊历史
2026-01-04 18:33:26
抖音第二总部今年启动开工建设,坐标深圳!

抖音第二总部今年启动开工建设,坐标深圳!

GA环球建筑
2026-01-06 00:06:37
德约科维奇宣布退出后,PTPA发表重磅声明反击:正遭到诽谤和恐吓

德约科维奇宣布退出后,PTPA发表重磅声明反击:正遭到诽谤和恐吓

网球之家
2026-01-05 23:56:11
女子在长沙丢失30万手表,6天后巧遇捡表大叔,表依旧挂在树上!大叔拒收近万元红包

女子在长沙丢失30万手表,6天后巧遇捡表大叔,表依旧挂在树上!大叔拒收近万元红包

潇湘晨报
2026-01-05 16:26:22
意甲媒体透露:为防止巴尔泰萨吉被挖走,米兰再次送上续约合同

意甲媒体透露:为防止巴尔泰萨吉被挖走,米兰再次送上续约合同

菲儿看球
2026-01-05 23:38:08
田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

眉眼动人
2026-01-04 11:41:23
畜生父亲韦乐被判死刑,法庭上高喊:我这辈子不亏

畜生父亲韦乐被判死刑,法庭上高喊:我这辈子不亏

墨染尘香
2024-12-11 22:00:48
50岁男子心梗抢救无效,每天坚持快走,医生表明:3个习惯要了命

50岁男子心梗抢救无效,每天坚持快走,医生表明:3个习惯要了命

卡西莫多的故事
2025-12-07 11:07:35
被批评后,詹姆斯和湖人队在对阵灰熊队时做出“180度大转变”

被批评后,詹姆斯和湖人队在对阵灰熊队时做出“180度大转变”

好火子
2026-01-06 01:40:10
虽然马杜罗被捕了,但是他却胜利了!

虽然马杜罗被捕了,但是他却胜利了!

低调看天下
2026-01-04 18:17:53
新年打虎!江苏一厅级干部任上被查

新年打虎!江苏一厅级干部任上被查

创客公社-江苏第一创投媒体
2026-01-05 20:36:57
2026-01-06 03:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12060文章数 142529关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

中方在联合国点名美国:4个严重违反 予以严重谴责

头条要闻

中方在联合国点名美国:4个严重违反 予以严重谴责

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

数码
健康
旅游
游戏
军事航空

数码要闻

2025年度数码好物大赏【年度评选】

这些新疗法,让化疗不再那么痛苦

旅游要闻

198.33万人次市民游客元旦假期畅游浦东,文旅市场迎来开门红

魔坛每周节奏丨魔超联赛Life大秀光速GG,Lyn神今晚迎首秀

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版