网易首页 > 网易号 > 正文 申请入驻

微软与清华联手:奖励推理模型RRMs问世

0
分享至

IT之家 5 月 27 日消息,科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。

IT之家援引博文介绍,强化学习(Reinforcement Learning,RL)已成为大语言模型(LLM)后训练的核心方法,通过人类反馈(RLHF)或可验证奖励(RLVR)提供监督信号。

然而,RLVR 在数学推理中虽有潜力,却因依赖可验证答案的训练查询而受限,难以应用于通用领域的大规模训练。

此外,现有奖励模型分为标量型和生成型两大类,均无法有效扩展测试时的计算资源。当前方法对所有输入统一分配计算资源,缺乏针对复杂查询进行细致分析的能力,导致评估效果不佳。

为解决上述问题,微软研究院、清华大学和北京大学的研究者联手推出奖励推理模型(RRMs)。RRMs 在给出最终奖励前执行显式推理过程,能够根据任务复杂性自适应分配额外计算资源。

这种方法通过“思维链”(Chain-of-Thought)推理,针对奖励不明显的复杂查询投入更多测试时计算资源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,生成推理过程后给出最终判断。

研究团队利用 RewardBench 库进行系统分析,评估指标包括指令遵循性、帮助性、准确性、无害性和细节水平。RRMs 还支持多响应评估,通过 ELO 评分系统和淘汰赛机制,结合多数投票提升计算资源利用率。

测试结果显示,RRMs 在 RewardBench 和 PandaLM Test 基准测试中表现突出。其中,RRM-32B 在推理类别中达到 98.6% 的准确率,与使用相同数据训练的 DirectJudge 模型相比,RRMs 展现出显著性能差距,证明其在复杂查询中有效利用测试时计算资源。

在奖励引导的最佳 N 推理(Best-of-N Inference)和后训练反馈中,RRMs 超越所有基线模型,且进一步提升多数投票机制效率。

研究还表明,随着模型规模从 7B、14B 到 32B 扩展,更长的推理时间始终带来准确性提升。RRMs 通过并行和顺序扩展方法高效利用计算资源,为传统标量奖励模型提供强大替代方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
旅游+演艺,激活消费新空间(大数据观察)

旅游+演艺,激活消费新空间(大数据观察)

人民网
2026-03-26 06:17:20
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

健康之光
2026-03-26 16:00:06
伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

近史谈
2026-03-26 06:17:39
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

时尚的弄潮
2026-03-26 14:02:47
国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

西莫的艺术宫殿
2026-03-26 15:20:40
广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

潇湘晨报
2026-03-26 11:59:13
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
伊朗警告地面战“更加危险且代价更大”

伊朗警告地面战“更加危险且代价更大”

界面新闻
2026-03-26 18:27:25
加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

民间铁血柔情
2026-03-09 06:03:33
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

夏目历史君
2026-03-26 17:23:42
近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

钱塘地产
2026-03-26 11:27:56
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

聚峰军评
2026-03-24 15:08:30
2026-03-26 18:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
家居
艺术
健康

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

皮衣+裙,高级到炸

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版