网易首页 > 网易号 > 正文 申请入驻

微软与清华联手:奖励推理模型RRMs问世

0
分享至

IT之家 5 月 27 日消息,科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。

IT之家援引博文介绍,强化学习(Reinforcement Learning,RL)已成为大语言模型(LLM)后训练的核心方法,通过人类反馈(RLHF)或可验证奖励(RLVR)提供监督信号。

然而,RLVR 在数学推理中虽有潜力,却因依赖可验证答案的训练查询而受限,难以应用于通用领域的大规模训练。

此外,现有奖励模型分为标量型和生成型两大类,均无法有效扩展测试时的计算资源。当前方法对所有输入统一分配计算资源,缺乏针对复杂查询进行细致分析的能力,导致评估效果不佳。

为解决上述问题,微软研究院、清华大学和北京大学的研究者联手推出奖励推理模型(RRMs)。RRMs 在给出最终奖励前执行显式推理过程,能够根据任务复杂性自适应分配额外计算资源。

这种方法通过“思维链”(Chain-of-Thought)推理,针对奖励不明显的复杂查询投入更多测试时计算资源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,生成推理过程后给出最终判断。

研究团队利用 RewardBench 库进行系统分析,评估指标包括指令遵循性、帮助性、准确性、无害性和细节水平。RRMs 还支持多响应评估,通过 ELO 评分系统和淘汰赛机制,结合多数投票提升计算资源利用率。

测试结果显示,RRMs 在 RewardBench 和 PandaLM Test 基准测试中表现突出。其中,RRM-32B 在推理类别中达到 98.6% 的准确率,与使用相同数据训练的 DirectJudge 模型相比,RRMs 展现出显著性能差距,证明其在复杂查询中有效利用测试时计算资源。

在奖励引导的最佳 N 推理(Best-of-N Inference)和后训练反馈中,RRMs 超越所有基线模型,且进一步提升多数投票机制效率。

研究还表明,随着模型规模从 7B、14B 到 32B 扩展,更长的推理时间始终带来准确性提升。RRMs 通过并行和顺序扩展方法高效利用计算资源,为传统标量奖励模型提供强大替代方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金融危机要来?专家预测,2026到2027上半年,世界将爆发金融风暴

金融危机要来?专家预测,2026到2027上半年,世界将爆发金融风暴

南宗历史
2026-05-29 19:04:07
4:1!中国女排赢球,首发阵容出炉,龚翔宇换主攻,李晨萱未上场

4:1!中国女排赢球,首发阵容出炉,龚翔宇换主攻,李晨萱未上场

跑者排球视角
2026-05-29 21:47:13
三菱帕杰罗正式回归:告别单一车型,将提供至少3款不同产品

三菱帕杰罗正式回归:告别单一车型,将提供至少3款不同产品

IT之家
2026-05-29 15:40:18
雷霆马刺伤情更新!两大核心缺阵,名帅分析结果:亚历山大成负担

雷霆马刺伤情更新!两大核心缺阵,名帅分析结果:亚历山大成负担

你的篮球频道
2026-05-30 08:11:44
全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

番外行
2026-05-25 15:19:56
马刺118-91大胜雷霆!文班创80年NBA纪录,前无古人

马刺118-91大胜雷霆!文班创80年NBA纪录,前无古人

篮球大视野
2026-05-29 11:15:30
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

世界有奇事
2026-05-28 22:10:45
董明珠回应“不用海归派”言论:本意不是说“海归派”不好,坚信中国高校能培养出世界级的优秀人才

董明珠回应“不用海归派”言论:本意不是说“海归派”不好,坚信中国高校能培养出世界级的优秀人才

每日经济新闻
2026-05-27 23:38:01
江西:坚决拥护党中央决定

江西:坚决拥护党中央决定

农民日报
2026-05-29 19:14:09
瞒不住了!国家在成都布下惊天大局,成都真正的王牌正在悄悄崛起

瞒不住了!国家在成都布下惊天大局,成都真正的王牌正在悄悄崛起

烟雨洛神生
2026-05-29 02:37:27
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
“再发生一次,我们就会失去中国的信任”

“再发生一次,我们就会失去中国的信任”

环球时报国际
2026-05-30 09:00:28
黄春光:上将之子,父亲不出事的话,他也会是个将军

黄春光:上将之子,父亲不出事的话,他也会是个将军

浔阳咸鱼
2026-05-29 15:10:10
加一箱油半箱税!电车白嫖路网时代落幕,汽车行业大洗牌已然开启

加一箱油半箱税!电车白嫖路网时代落幕,汽车行业大洗牌已然开启

眼光决定境界
2026-05-30 09:54:33
笑不活!中年人集体不觉老,90后最先破防,网友炸锅了

笑不活!中年人集体不觉老,90后最先破防,网友炸锅了

夜深爱杂谈
2026-05-13 22:28:58
公安紧急通知!1960–1978年出生的人注意了,身份证过期能坑惨你

公安紧急通知!1960–1978年出生的人注意了,身份证过期能坑惨你

笑熬浆糊111
2026-05-30 01:39:26
37℃!雨!雨!雨!江苏天气最新预测

37℃!雨!雨!雨!江苏天气最新预测

江南晚报
2026-05-30 03:13:57
金融监管体系迎首位女“掌舵人”:丁向群正式接棒,履历堪称“金融全科”

金融监管体系迎首位女“掌舵人”:丁向群正式接棒,履历堪称“金融全科”

贝壳财经
2026-05-29 22:58:19
成都理工大学环卫女工李佳,335天碎片时间考取本校硕士研究生

成都理工大学环卫女工李佳,335天碎片时间考取本校硕士研究生

天空空啊
2026-05-29 13:48:40
日本队联动《海贼王》,众将训练前戴蓝草帽合影

日本队联动《海贼王》,众将训练前戴蓝草帽合影

懂球帝
2026-05-29 12:30:06
2026-05-30 10:36:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346976文章数 607255关注度
往期回顾 全部

科技要闻

英伟达、微软一同发布神秘预告 下周亮相?

头条要闻

参赛车手张秀军身亡:和领航员翻进水沟里被困一小时

头条要闻

参赛车手张秀军身亡:和领航员翻进水沟里被困一小时

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
时尚
本地
手机
家居

《Cheap Car Repair》正式推出 好评汽修店经营

aespa治好了我的黑眼圈焦虑

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

iPhone 18 Pro 或因可变光圈镜头成本大增而再涨价

家居要闻

云栖 舒展如流云

无障碍浏览 进入关怀版