网易首页 > 网易号 > 正文 申请入驻

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。

o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。

那么,想提升大模型在其他学科领域的能力该怎么办?

腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。

RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。

除论文外,还开源了奖励模型和多学科数据集。

7B奖励模型搞定全学科

研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。

这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。

像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。

于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。

受启发于“大模型判断高度一致”的发现,团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。

整个过程分为3步流水线:

实验数据从ExamQA中随机采样了6000个问题,广泛分布于理工人文各学科。

实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的RL、使用SFT模型作为验证器,以及本文蒸馏的RM-7B模型作为验证器的多种方法,有以下结论:

  • RM-7B在自由形式答案任务中表现出色
  • 基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
  • 软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好

此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。

在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然CoT在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在RLVR的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。

本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。

One More Thing

论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。

评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。

涂兆鹏也认为这个视角与RLVR方法的观点一致。

论文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f


[1]https://x.com/tuzhaopeng/status/1906975869538914570

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
萧旭岑事件主导者找到!马以南曝光短信,警告金溥聪放过马英九

萧旭岑事件主导者找到!马以南曝光短信,警告金溥聪放过马英九

慕名而来只为你
2026-05-26 19:39:33
比巴铁还仗义!把整个生产线搬到中国,就连核心技术全都打包转让

比巴铁还仗义!把整个生产线搬到中国,就连核心技术全都打包转让

抽象派大师
2026-05-27 00:10:00
华为的车,开始自己打起来了

华为的车,开始自己打起来了

茄小茄说事
2026-05-25 11:41:47
对手无缘欧冠!国米迎王朝最佳时机:引援再无对手,更有额外惊喜

对手无缘欧冠!国米迎王朝最佳时机:引援再无对手,更有额外惊喜

狗哥是一名内拉
2026-05-26 22:12:01
成龙出演黄仁勋?全网都癫了

成龙出演黄仁勋?全网都癫了

李东阳朋友圈
2026-05-26 22:30:18
五大联赛落幕!金球奖10位热门候选出炉:登贝莱第2,亚马尔第5

五大联赛落幕!金球奖10位热门候选出炉:登贝莱第2,亚马尔第5

球场没跑道
2026-05-26 18:21:45
失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

失独母亲实名举报律师虚假宣传:拿我丧子之痛当营销噱头?

大象新闻
2026-05-26 17:25:23
中国公开赛外卡遇冷:三张无人认领的门票映出斯诺克“腰部”球员生存困境

中国公开赛外卡遇冷:三张无人认领的门票映出斯诺克“腰部”球员生存困境

带你逛体坛
2026-05-26 17:52:06
李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

收藏大视界
2026-05-24 17:41:29
李晨郑恺停更后续,节目中更多被欺凌片段爆出,沙溢评论区已沦陷

李晨郑恺停更后续,节目中更多被欺凌片段爆出,沙溢评论区已沦陷

小噎论事
2026-05-27 04:33:10
雪上加霜!上海队赢球,卢伟却开心不起来,损失了2名外援

雪上加霜!上海队赢球,卢伟却开心不起来,损失了2名外援

体育哲人
2026-05-26 22:14:31
拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

影孖看世界
2026-05-25 23:43:38
深夜利空,29股减持,9股提示风险,9股收监管函,1股被立案

深夜利空,29股减持,9股提示风险,9股收监管函,1股被立案

风风顺
2026-05-27 00:35:03
“孩子妈没了,不能没了爸”:男子杀妻后,让岳父看孩子面谅解他

“孩子妈没了,不能没了爸”:男子杀妻后,让岳父看孩子面谅解他

汉史趣闻
2026-05-26 13:29:11
四大野战军司令员之中,陈毅为什么排名倒数第一?原因非常简单

四大野战军司令员之中,陈毅为什么排名倒数第一?原因非常简单

凡人侃史
2026-05-26 23:50:12
美股三大股指收盘涨跌不一 美光市值突破万亿美元大关

美股三大股指收盘涨跌不一 美光市值突破万亿美元大关

财联社
2026-05-27 04:02:09
上海赢球后却遭一大打击?卢伟这下真慌了:两大超级王牌意外伤了

上海赢球后却遭一大打击?卢伟这下真慌了:两大超级王牌意外伤了

篮球快餐车
2026-05-27 01:08:41
凯越的“骚操作”:用一场碰瓷,把张雪送上神坛把自己钉上耻辱柱

凯越的“骚操作”:用一场碰瓷,把张雪送上神坛把自己钉上耻辱柱

林子说事
2026-05-27 00:27:37
香港明星豪宅太假,陈凯琳请客,十几个人把餐厅挤得跟个卡座似的

香港明星豪宅太假,陈凯琳请客,十几个人把餐厅挤得跟个卡座似的

西楼知趣杂谈
2026-05-26 21:49:36
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

蜉蝣说
2026-04-23 09:41:11
2026-05-27 06:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12689文章数 176471关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

头条要闻

武契奇获授"友谊勋章":父母特意打电话 我们都哭了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

房产
游戏
家居
艺术
军事航空

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

猎魂世界:千仞雪/王秋儿售后盘点!售后是越多越好还是越少越好

家居要闻

生与命相依 旧公寓改造

艺术要闻

笑不活了!500 年前倭寇 “光屁股作战”!

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版