网易首页 > 网易号 > 正文 申请入驻

阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

0
分享至

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。过程奖励模型(Process Reward Model, PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,最终提升大模型推理能力。

基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。

在包含GSM8K、MATH、Minerva Math等7个数学基准测试的 Best-of-N 评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model )结果奖励模型Qwen2.5-Math-RM-72B。

同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。

(完)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“只有学渣家长会这样”,母亲在考场前失态,网友:你到底哭啥?

“只有学渣家长会这样”,母亲在考场前失态,网友:你到底哭啥?

泽泽先生
2026-06-22 19:49:50
1.2万亿!中国团队,挑战美国最强AI,一战封神

1.2万亿!中国团队,挑战美国最强AI,一战封神

华商韬略
2026-06-23 10:43:14
有人还记得当年这张家喻户晓的照片吗

有人还记得当年这张家喻户晓的照片吗

年代回忆
2026-06-12 20:31:53
暖心,B席赛后安慰了失落的胡桑诺夫

暖心,B席赛后安慰了失落的胡桑诺夫

懂球帝
2026-06-24 04:36:28
60岁以后,你如果还想多活30年,一定要死死记住这10件事。

60岁以后,你如果还想多活30年,一定要死死记住这10件事。

周哥一影视
2026-06-18 13:18:55
我妈攒了五年的废铜,400多斤,昨天拿去卖,对方一开口就愣住了

我妈攒了五年的废铜,400多斤,昨天拿去卖,对方一开口就愣住了

三农雷哥
2026-06-24 17:34:26
表面是演员,实际职务却高到吓人,这六位明星个个“深藏不露”

表面是演员,实际职务却高到吓人,这六位明星个个“深藏不露”

梦回千年aa
2026-06-23 03:40:03
【国内动态】中共北京市委 北京市人民政府决定!韦东奕,获奖!

【国内动态】中共北京市委 北京市人民政府决定!韦东奕,获奖!

新浪财经
2026-06-24 07:54:40
吸烟真的有害吗?英国烟草公司用48只狗实验,4年竟抽掉14万支烟

吸烟真的有害吗?英国烟草公司用48只狗实验,4年竟抽掉14万支烟

掠影后有感
2026-06-24 10:52:34
重磅利好突袭!韩系芯片集体暴力拉升,韩国股市全线大反攻

重磅利好突袭!韩系芯片集体暴力拉升,韩国股市全线大反攻

魏家东
2026-06-24 13:49:49
北航杨昀发声明:2004年高考676分被清华录取,不存在刁难耿同学

北航杨昀发声明:2004年高考676分被清华录取,不存在刁难耿同学

东东趣谈
2026-06-22 15:30:52
巴坎布:谢谢国安球迷支持我;北京国安一直在我心里

巴坎布:谢谢国安球迷支持我;北京国安一直在我心里

懂球帝
2026-06-24 18:33:35
CBA超级外援达成续约!拿到大合同,带队冲击总冠军

CBA超级外援达成续约!拿到大合同,带队冲击总冠军

国篮会自强
2026-06-24 19:53:55
都快来抢了!六届全明星,赛季场均18分,今夏可能要被买断了

都快来抢了!六届全明星,赛季场均18分,今夏可能要被买断了

球毛鬼胎
2026-06-24 18:36:48
都以为C罗去沙特是养老,结果这老哥悄悄把14亿美金装兜里了

都以为C罗去沙特是养老,结果这老哥悄悄把14亿美金装兜里了

阿废冷眼观察所
2026-06-22 01:48:19
立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

叮当当科技
2026-06-24 17:47:42
别吹梅西了!阿根廷隐藏核心彻底爆发,斯卡洛尼离不开他

别吹梅西了!阿根廷隐藏核心彻底爆发,斯卡洛尼离不开他

澜归序
2026-06-24 05:57:33
网传华为员工发言,令人震惊…

网传华为员工发言,令人震惊…

慧翔百科
2026-06-24 17:44:42
【减持速览】6月24号这些公司减持了

【减持速览】6月24号这些公司减持了

市值财经Pro
2026-06-24 20:08:54
日本电机巨头居然偷运我国稀土:派在华员工偷运,被逮个正着

日本电机巨头居然偷运我国稀土:派在华员工偷运,被逮个正着

怪味历史连连看
2026-06-24 19:34:18
2026-06-24 20:47:00
封面新闻 incentive-icons
封面新闻
第一眼,看封面。了解权威信息,看真实新闻故事(互联网新闻信息服务许可证:51120170004)。
356748文章数 889621关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

本地
房产
数码
手机
公开课

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

房产要闻

白鹅潭新增优质宅地!沙涌地块对望太古里,容积率仅 2.14

数码要闻

华为MatePad Mini平板推送鸿蒙6.1.0.125 SP20更新

手机要闻

小米卢伟冰:REDMI K90至尊版把Max全套游戏基因搬了过来

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版