网易首页 > 网易号 > 正文 申请入驻

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。

o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。

那么,想提升大模型在其他学科领域的能力该怎么办?

腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。

RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。

除论文外,还开源了奖励模型和多学科数据集。

7B奖励模型搞定全学科

研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。

这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。

像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。

于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。

受启发于“大模型判断高度一致”的发现,团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。

整个过程分为3步流水线:

实验数据从ExamQA中随机采样了6000个问题,广泛分布于理工人文各学科。

实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的RL、使用SFT模型作为验证器,以及本文蒸馏的RM-7B模型作为验证器的多种方法,有以下结论:

  • RM-7B在自由形式答案任务中表现出色
  • 基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
  • 软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好

此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。

在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然CoT在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在RLVR的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。

本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。

One More Thing

论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。

评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。

涂兆鹏也认为这个视角与RLVR方法的观点一致。

论文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f


[1]https://x.com/tuzhaopeng/status/1906975869538914570

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

2019年,滴滴司机钟元被执行死刑,死前害怕不已,跪地不停忏悔

南宗历史
2026-03-17 01:08:53
深夜利空,4股被立案,5股发退市风险提示,18股发减持公告

深夜利空,4股被立案,5股发退市风险提示,18股发减持公告

风风顺
2026-04-04 06:59:26
特朗普称将持续打击伊朗三周,官员警告:可打击的目标已所剩无几

特朗普称将持续打击伊朗三周,官员警告:可打击的目标已所剩无几

世界有奇事
2026-04-04 08:36:03
高圆圆赵又廷带娃游迪士尼!高圆圆穿搭好“灾难”腿比赵又廷还粗

高圆圆赵又廷带娃游迪士尼!高圆圆穿搭好“灾难”腿比赵又廷还粗

小娱乐悠悠
2026-04-03 09:10:08
宅基地审批全面放开?农村自建房更方便,但需同时满足4个条件

宅基地审批全面放开?农村自建房更方便,但需同时满足4个条件

小谈食刻美食
2026-04-03 10:02:44
54年,毛主席问关公姓什么,公安厅长回答姓关,毛主席:错了

54年,毛主席问关公姓什么,公安厅长回答姓关,毛主席:错了

铜臭的历史味
2026-04-04 10:27:56
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

削桐作琴
2026-04-02 18:15:11
一个是司令一个是副司令,后来司令被评为上将,副司令却成了大将

一个是司令一个是副司令,后来司令被评为上将,副司令却成了大将

史之铭
2026-04-02 17:18:28
香烟要被洗白了?中科院颠覆性研究,尼古丁或能降低40%死亡率?

香烟要被洗白了?中科院颠覆性研究,尼古丁或能降低40%死亡率?

云景侃记
2026-04-04 10:21:05
梁思成建议,把人民大会堂建在五棵松,遭到苏联专家的反对

梁思成建议,把人民大会堂建在五棵松,遭到苏联专家的反对

锅锅爱历史
2026-04-04 01:55:19
深圳一学校百名学生轮番掌勺做蛋炒饭 有家长陪练连吃一周

深圳一学校百名学生轮番掌勺做蛋炒饭 有家长陪练连吃一周

南方都市报
2026-04-04 09:49:07
我国最能折腾的省,60年内省会搬了11次,如今省会被嘲名太“土”

我国最能折腾的省,60年内省会搬了11次,如今省会被嘲名太“土”

春风秋雨
2026-04-03 19:15:05
这面相太好了,妥妥旺夫相,膀大腰圆气血足,穿着干净舒服!

这面相太好了,妥妥旺夫相,膀大腰圆气血足,穿着干净舒服!

可乐谈情感
2026-03-29 15:16:24
主管通知我去基层岗位,年薪从 89万降到7 万,我没多问直接走人

主管通知我去基层岗位,年薪从 89万降到7 万,我没多问直接走人

小秋情感说
2026-04-03 09:30:20
杨振宁离世5个月,翁帆远赴英国真相曝光,藏21年的秘密瞒不住了

杨振宁离世5个月,翁帆远赴英国真相曝光,藏21年的秘密瞒不住了

离离言几许
2026-03-13 22:38:05
大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

喀秋莎大世界
2026-04-03 22:17:35
口嗨大了!张本美和不敌王艺迪 赛后没想到情绪失控 曾放豪言被打

口嗨大了!张本美和不敌王艺迪 赛后没想到情绪失控 曾放豪言被打

小嵩
2026-04-04 08:32:12
1950年我军抓获女匪首,她袖口补丁藏着的布条,老政委看后摔茶缸

1950年我军抓获女匪首,她袖口补丁藏着的布条,老政委看后摔茶缸

磊子讲史
2026-03-18 11:38:06
俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

项鹏飞
2026-04-02 20:36:35
2026-04-04 11:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12412文章数 176439关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

头条要闻

男子建了18个"5G基站"被政府叫停 发现红头文件为伪造

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

房产
本地
时尚
数码
公开课

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽,听古村回响

Softfit穿搭火了,穿出春日松弛感和氛围美

数码要闻

烤箱修显卡大法再现!报废RX 6700 XT 188°C烘烤:12分钟复活

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版