网易首页 > 网易号 > 正文 申请入驻

数据缺少标注RL能诱导模型推理吗?Co-rewarding提供自监督RL方案

0
分享至



本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被ICLR 2026接收。

目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。

一旦走向不需要标注数据的 “自奖励(Self-rewarding)” 强化学习训练,模型往往会迅速陷入训练崩溃(Training Collapse),看似获取的奖励(Reward)越来越高,实际上却是在利用自我奖励规则中的漏洞进行奖励投机(Reward Hacking),而非真正答对问题获取奖励。

究竟什么样的强化学习(Reinforcement Learning,RL)训练范式,才能在无需真实(Ground-truth)答案标注的情况下,实现稳定的 RL 训练,诱导出模型的推理能力?

针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。



  • 论文标题:Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
  • 论文链接:https://openreview.net/forum?id=fDk95XPsCU
  • 代码链接:https://github.com/bigai-ai/LIFT-humanoid
  • Huggingface 链接:https://huggingface.co/collections/TMLR-Group-HF/co-rewarding

自我奖励策略训练模型为什么会导致训练崩溃?

在缺乏标注数据的场景下,目前的自我奖励策略均是通过强化模型的自信心来进行训练,主要分为两个类别:(1)基于熵(Entropy)的方法:通过最小化模型输出内容的熵(Entropy),或最大化自我确定性(Self-certainty)等指标来强化模型的信心;(2)基于一致的方法:让模型针对同一个问题多次输出后,进行多数投票(Majority-voting)得到伪标签(Pseudo label)来监督 RL 训练。



图 1:左边 4 个图为训练过程中验证集上的性能曲线。右边 2 个图为训练过程中的奖励(Reward)曲线。

无论是哪一类方法,它们都是让当前模型从单一视角产生信号监督自己。这极易让模型进行奖励投机,以一种最容易方式拿到奖励,而不是产生正确的推理路径。这就像让学生自己监督自己学习时,学生会自己 “开小差” 一样。如图 1 所示,模型会发现重复输出部分 token 可以使得熵最小;模型输出一个一致但错误的答案,也可以拿到奖励。这就模型在 RL 的自我奖励机制中以投机的方式获取到最高奖励,奖励获取与推理正确性逐步脱钩,进而导致训练崩溃。



图 2:Co-rewarding 框架示意图。不同于单视角自我监督的方法,(a) Co-rewarding 引入其他视角互补的监督信号;(b) 从数据视角,Co-rewarding-I 使用原题和改写题进行相互监督;(c) 从模型视角,Co-rewarding-II 使用一个教师参考模型产生伪标签监督当前模型。

Co-rewarding 提出关键转变:互补视角进行监督和奖励

针对这一挑战,Co-rewarding 提出避免训练崩溃的关键转变:不再相信单一视角的监督信号,而是主动引入 “互补视角的监督”,进而增加模型奖励投机的难度。具体来看,Co-rewarding 分别从数据视角和模型视角给出两种实现。

方法一:Co-rewarding-I(数据视角)

如图 2 (b) 所示,Co-rewarding-I 从数据层面引入互补监督信号,对原问题构建语义等价但表述不同的改写问题(Rephrased Questions),利用原问题与改写问题之间的 “类比一致性” 进行相互监督:

  • 对原题与改写题分别进行多次采样,生成回答。
  • 用原题回答进行多数投票得到的伪标签去监督改写题,用改写题回答多数投票得到的伪标签监督原题。

这种设计的关键在于:模型必须在不同表述下保持推理结果的一致性,才能持续获得奖励。相比单一视角下的一致性自洽,跨问题的一致性显著提高了奖励投机的难度,从而有效缓解训练崩溃问题。

方法二:Co-rewarding-II(模型视角)

如图 2 (c) 所示,Co-rewarding-II 从模型层面解开监督信号与当前 Policy 模型训练之间的耦合,即监督信号所需要的伪标签不是从当前 Policy 模型得到,而是一个另外的教师模型,这进一步降低了当前 Policy 模型对于奖励信号的控制,增强了奖励投机的难度:

  • 教师模型针对一个问题,生成多次推理回答,并多数投票产生伪标签。
  • 学生 Policy 模型基于教师提供的伪标签进行奖励获取和 RL 训练。
  • 教师模型无需引入一个额外的模型,而是由学生模型通过 EMA(指数滑动平均) 更新参考模型(Reference Model)得到。

这种 “慢更新教师 + 快更新学生” 的结构,本质上是一种时间解耦的自蒸馏(Self-distillation)机制,能够有效避免当前 Policy 模型对于奖励信号的操纵,从而显著降低训练崩溃风险。

实验结果:不仅更加稳定,而且性能更强

在多个训练集(MATH、DAPO-14k)、模型系列(Qwen2.5/3、Llama)上进行实验。并在多个数学推理、代码生成和通用领域基准数据集上进行评估,Co-rewarding 均展现出相比于现有自我奖励方法的优势:



表 1:在 MATH 训练集上的性能对比,颜色越深表示相同组内性能越好。Co-rewarding-I 相比于最好的自我奖励的基线方法在 4 个数学相关的基准上的平均性能提升达到 + 4.42%



表 2:在 DAPO-14K 训练集上的性能对比,颜色越深表示相同组内性能越好。Co-rewarding-II 相比于最好的自我奖励基线方法在 4 个数学相关的基准上的平均提升达到 + 12.90%

  • 从表 1 中得到,在 4 个数学推理基准上,相比于最好的自奖励方法,Co-rewarding-I 平均性能提升达到 + 4.42%。从表 2 中得到,Co-rewarding-II 平均性能提升达到 + 12.90%。

  • 在一些情况下,Co-rewarding 甚至超越了真实答案进行监督的 RL 训练得到模型,例如 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上达到了 Pass@1 为 94.01%。

  • 从图 1 中观察得到,Co-rewarding 在训练过程中,验证集上的性能曲线持续提升,奖励持续获取,无训练崩溃和奖励劫持现象发生。

  • Co-rewarding 在数学相关的训练集上进行训练,在代码生成的基准上依旧取得性能提升。

  • Co-rewarding 在 MMLU-Pro 和 IFEval 等多任务和通用领域基准上性能保持稳定,未牺牲模型通用领域的性能。

Co-rewarding 带来的启发

自监督强化学习的关键,在于构造更 “可靠” 的监督信号来维持稳定和持续的学习。通过引入互补视角的奖励监督机制,Co-rewarding 证明了:即便没有人工标注,通过合理可靠的自我奖励机制,大模型也可以稳定、持续地诱导出推理能力。这反应了自监督强化学习的潜力,在摆脱对于标注数据依赖的同时,更加符合 Scaling Law 的精神,能够更加容易的获取到更多的数据用于模型训练。

作者介绍

张子卓、朱嘉宁(现 UT Austin 博后)、周展科、李烜、冯啸来自香港浸会大学计算机系可信机器学习和推理组,葛馨木和赵孜铧来自上海交通大学,团队导师为韩波教授和姚江超教授。本研究工作的作者均在 NeurIPS、ICML、ICLR 等机器学习和人工智能顶会上发表多篇论文,主要研究方向为大语言模型推理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美共同的两个敌人

中美共同的两个敌人

环球时报国际
2026-05-11 08:42:59
武大“自杀式”声明令人错愕,充分说明新闻学是一门真正有用的学问

武大“自杀式”声明令人错愕,充分说明新闻学是一门真正有用的学问

晓看说
2026-05-10 22:40:59
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
普京称俄乌冲突即将结束

普京称俄乌冲突即将结束

每日经济新闻
2026-05-10 09:23:00
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

体育知多少
2026-05-11 07:22:34
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
世乒赛女团落幕:孙颖莎拿2分,国乒翻盘日本夺冠,马琳现场落泪

世乒赛女团落幕:孙颖莎拿2分,国乒翻盘日本夺冠,马琳现场落泪

侃球熊弟
2026-05-10 21:06:23
男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

极目新闻
2026-05-11 07:34:42
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-05-10 09:39:27
72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

阿废冷眼观察所
2026-05-10 19:41:35
一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

IT之家
2026-05-10 21:38:29
特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

新浪财经
2026-05-10 23:49:22
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

IT之家
2026-05-10 22:51:11
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
2026-05-11 09:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
亲子
手机
公开课
军事航空

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

一天天操碎了心~

手机要闻

华为官网确认:畅连App「实时对讲」功能将支持部分机型无网使用

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版