网易首页 > 网易号 > 正文 申请入驻

阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

0
分享至

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。过程奖励模型(Process Reward Model, PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,最终提升大模型推理能力。

基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。

在包含GSM8K、MATH、Minerva Math等7个数学基准测试的 Best-of-N 评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model )结果奖励模型Qwen2.5-Math-RM-72B。

同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。

(完)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
封面新闻 incentive-icons
封面新闻
第一眼,看封面。了解权威信息,看真实新闻故事(互联网新闻信息服务许可证:51120170004)。
345565文章数 888726关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
数码
家居
旅游
公开课

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版