网易首页 > 网易号 > 正文 申请入驻

数据缺少标注RL能诱导模型推理吗?Co-rewarding提供自监督RL方案

0
分享至



本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被ICLR 2026接收。

目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。

一旦走向不需要标注数据的 “自奖励(Self-rewarding)” 强化学习训练,模型往往会迅速陷入训练崩溃(Training Collapse),看似获取的奖励(Reward)越来越高,实际上却是在利用自我奖励规则中的漏洞进行奖励投机(Reward Hacking),而非真正答对问题获取奖励。

究竟什么样的强化学习(Reinforcement Learning,RL)训练范式,才能在无需真实(Ground-truth)答案标注的情况下,实现稳定的 RL 训练,诱导出模型的推理能力?

针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。



  • 论文标题:Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
  • 论文链接:https://openreview.net/forum?id=fDk95XPsCU
  • 代码链接:https://github.com/bigai-ai/LIFT-humanoid
  • Huggingface 链接:https://huggingface.co/collections/TMLR-Group-HF/co-rewarding

自我奖励策略训练模型为什么会导致训练崩溃?

在缺乏标注数据的场景下,目前的自我奖励策略均是通过强化模型的自信心来进行训练,主要分为两个类别:(1)基于熵(Entropy)的方法:通过最小化模型输出内容的熵(Entropy),或最大化自我确定性(Self-certainty)等指标来强化模型的信心;(2)基于一致的方法:让模型针对同一个问题多次输出后,进行多数投票(Majority-voting)得到伪标签(Pseudo label)来监督 RL 训练。



图 1:左边 4 个图为训练过程中验证集上的性能曲线。右边 2 个图为训练过程中的奖励(Reward)曲线。

无论是哪一类方法,它们都是让当前模型从单一视角产生信号监督自己。这极易让模型进行奖励投机,以一种最容易方式拿到奖励,而不是产生正确的推理路径。这就像让学生自己监督自己学习时,学生会自己 “开小差” 一样。如图 1 所示,模型会发现重复输出部分 token 可以使得熵最小;模型输出一个一致但错误的答案,也可以拿到奖励。这就模型在 RL 的自我奖励机制中以投机的方式获取到最高奖励,奖励获取与推理正确性逐步脱钩,进而导致训练崩溃。



图 2:Co-rewarding 框架示意图。不同于单视角自我监督的方法,(a) Co-rewarding 引入其他视角互补的监督信号;(b) 从数据视角,Co-rewarding-I 使用原题和改写题进行相互监督;(c) 从模型视角,Co-rewarding-II 使用一个教师参考模型产生伪标签监督当前模型。

Co-rewarding 提出关键转变:互补视角进行监督和奖励

针对这一挑战,Co-rewarding 提出避免训练崩溃的关键转变:不再相信单一视角的监督信号,而是主动引入 “互补视角的监督”,进而增加模型奖励投机的难度。具体来看,Co-rewarding 分别从数据视角和模型视角给出两种实现。

方法一:Co-rewarding-I(数据视角)

如图 2 (b) 所示,Co-rewarding-I 从数据层面引入互补监督信号,对原问题构建语义等价但表述不同的改写问题(Rephrased Questions),利用原问题与改写问题之间的 “类比一致性” 进行相互监督:

  • 对原题与改写题分别进行多次采样,生成回答。
  • 用原题回答进行多数投票得到的伪标签去监督改写题,用改写题回答多数投票得到的伪标签监督原题。

这种设计的关键在于:模型必须在不同表述下保持推理结果的一致性,才能持续获得奖励。相比单一视角下的一致性自洽,跨问题的一致性显著提高了奖励投机的难度,从而有效缓解训练崩溃问题。

方法二:Co-rewarding-II(模型视角)

如图 2 (c) 所示,Co-rewarding-II 从模型层面解开监督信号与当前 Policy 模型训练之间的耦合,即监督信号所需要的伪标签不是从当前 Policy 模型得到,而是一个另外的教师模型,这进一步降低了当前 Policy 模型对于奖励信号的控制,增强了奖励投机的难度:

  • 教师模型针对一个问题,生成多次推理回答,并多数投票产生伪标签。
  • 学生 Policy 模型基于教师提供的伪标签进行奖励获取和 RL 训练。
  • 教师模型无需引入一个额外的模型,而是由学生模型通过 EMA(指数滑动平均) 更新参考模型(Reference Model)得到。

这种 “慢更新教师 + 快更新学生” 的结构,本质上是一种时间解耦的自蒸馏(Self-distillation)机制,能够有效避免当前 Policy 模型对于奖励信号的操纵,从而显著降低训练崩溃风险。

实验结果:不仅更加稳定,而且性能更强

在多个训练集(MATH、DAPO-14k)、模型系列(Qwen2.5/3、Llama)上进行实验。并在多个数学推理、代码生成和通用领域基准数据集上进行评估,Co-rewarding 均展现出相比于现有自我奖励方法的优势:



表 1:在 MATH 训练集上的性能对比,颜色越深表示相同组内性能越好。Co-rewarding-I 相比于最好的自我奖励的基线方法在 4 个数学相关的基准上的平均性能提升达到 + 4.42%



表 2:在 DAPO-14K 训练集上的性能对比,颜色越深表示相同组内性能越好。Co-rewarding-II 相比于最好的自我奖励基线方法在 4 个数学相关的基准上的平均提升达到 + 12.90%

  • 从表 1 中得到,在 4 个数学推理基准上,相比于最好的自奖励方法,Co-rewarding-I 平均性能提升达到 + 4.42%。从表 2 中得到,Co-rewarding-II 平均性能提升达到 + 12.90%。

  • 在一些情况下,Co-rewarding 甚至超越了真实答案进行监督的 RL 训练得到模型,例如 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上达到了 Pass@1 为 94.01%。

  • 从图 1 中观察得到,Co-rewarding 在训练过程中,验证集上的性能曲线持续提升,奖励持续获取,无训练崩溃和奖励劫持现象发生。

  • Co-rewarding 在数学相关的训练集上进行训练,在代码生成的基准上依旧取得性能提升。

  • Co-rewarding 在 MMLU-Pro 和 IFEval 等多任务和通用领域基准上性能保持稳定,未牺牲模型通用领域的性能。

Co-rewarding 带来的启发

自监督强化学习的关键,在于构造更 “可靠” 的监督信号来维持稳定和持续的学习。通过引入互补视角的奖励监督机制,Co-rewarding 证明了:即便没有人工标注,通过合理可靠的自我奖励机制,大模型也可以稳定、持续地诱导出推理能力。这反应了自监督强化学习的潜力,在摆脱对于标注数据依赖的同时,更加符合 Scaling Law 的精神,能够更加容易的获取到更多的数据用于模型训练。

作者介绍

张子卓、朱嘉宁(现 UT Austin 博后)、周展科、李烜、冯啸来自香港浸会大学计算机系可信机器学习和推理组,葛馨木和赵孜铧来自上海交通大学,团队导师为韩波教授和姚江超教授。本研究工作的作者均在 NeurIPS、ICML、ICLR 等机器学习和人工智能顶会上发表多篇论文,主要研究方向为大语言模型推理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

律法刑道
2026-02-25 12:16:48
“13万元奢侈品被15岁女儿9300元贱卖”最新消息:新人物出现,家长与回收方达成初步协议

“13万元奢侈品被15岁女儿9300元贱卖”最新消息:新人物出现,家长与回收方达成初步协议

极目新闻
2026-02-25 21:24:20
骑士109-94击败尼克斯!哈登打破尘封9年纪录,登顶骑士队史第一

骑士109-94击败尼克斯!哈登打破尘封9年纪录,登顶骑士队史第一

篮球大视野
2026-02-25 20:36:55
2026第一波大裁员来了,注意这5个危险行业

2026第一波大裁员来了,注意这5个危险行业

爱看剧的阿峰
2026-02-25 04:59:54
哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

醉卧浮生
2026-02-25 11:14:21
0进球封神!震撼!哈兰德凭啥让瓜帅彻底折服

0进球封神!震撼!哈兰德凭啥让瓜帅彻底折服

卿子书
2026-02-25 08:50:35
法国新型超声速核导弹亮相

法国新型超声速核导弹亮相

财联社
2026-02-24 15:39:13
中国禁止手机搭载WiFi的禁令,为何无疾而终了?

中国禁止手机搭载WiFi的禁令,为何无疾而终了?

真的好爱你
2026-02-25 00:53:59
雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

PChome电脑之家
2026-02-24 17:02:37
战线突然崩溃:乌军闪电突袭夺回大片领土,北约真下场了?

战线突然崩溃:乌军闪电突袭夺回大片领土,北约真下场了?

纪中百大事
2026-02-25 14:25:02
湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

醉卧浮生
2026-02-25 14:00:24
上海海港官宣:安佩姆租借加盟

上海海港官宣:安佩姆租借加盟

五星体育
2026-02-25 16:57:41
中国男篮对阵日本队!12人大名单官宣,杜峰爱徒落选,郭士强变阵

中国男篮对阵日本队!12人大名单官宣,杜峰爱徒落选,郭士强变阵

曹说体育
2026-02-25 20:37:51
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

往史过眼云烟
2026-02-25 14:23:55
看完《镖人》,对塑料古偶应激了!满屏假头套的痛,此刻尽数爆发

看完《镖人》,对塑料古偶应激了!满屏假头套的痛,此刻尽数爆发

八卦南风
2026-02-24 16:26:16
平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

平顶山再通报“夫妻殴打15岁女生”:如此嚣张,离不开这三个原因

英军眼
2026-02-25 10:53:41
汕头旅游到底有多贵?

汕头旅游到底有多贵?

汽车通研社
2026-02-25 14:40:40
被钉在耻辱柱上!42岁刘某飞踢到铁板 已被法院逮捕 更严重的在后面

被钉在耻辱柱上!42岁刘某飞踢到铁板 已被法院逮捕 更严重的在后面

小虎新车推荐员
2026-02-25 15:44:39
美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

壹知眠羊
2026-02-23 11:30:46
广州,有雷又有雨!连续一周

广州,有雷又有雨!连续一周

广州生活美食圈
2026-02-25 12:32:38
2026-02-25 22:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12362文章数 142569关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

健康
时尚
亲子
旅游
教育

转头就晕的耳石症,能开车上班吗?

“复古甜心”穿搭突然大火!春天穿时髦又减龄

亲子要闻

宝妈必学,孩子这样不是偏激而是应激!

旅游要闻

山东:传统年味融合新潮体验 新春文旅焕发新活力

教育要闻

中考数学化简题,思路逻辑很重要

无障碍浏览 进入关怀版