网易首页 > 网易号 > 正文 申请入驻

突破后训练瓶颈?Meta超级智能实验室力作:CaT解决RL监督难题

0
分享至

机器之心报道

机器之心编辑部

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。

这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定性规则检查难以实施。

在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。

然而,当后训练缺乏真实标注时,学习信号从何而来?

为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:

推理计算是否可以替代缺失的监督?

本文认为答案是肯定的,他们提出了一种名为CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。

结果显示,推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可验证领域(MATH-500 最高提升 27%;HealthBench 提升 12%)。结合强化学习的CaT(CaT-RL)可进一步获得增益(最高提升 33% 和 30%),训练后的策略甚至能超越初始教师信号。

  • 论文地址:https://arxiv.org/pdf/2509.14234
  • 论文标题:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

有意思的是,这篇论文作者全部都在 Meta 超级智能实验室做过研究(∗Work done at Meta Superintelligence Labs)。我们不得不感叹,近期,他们发文的频率真是太快了。

在论文上线的同时,这项研究也引起了大家广泛讨论,有人表示:CaT 解决了 RL 中缺少监督的难题,这是一种优雅的解决方案。

还有人认为:CaT 的这项研究意义重大,它将计算本身转化为监督。如果将其规模化,可能会改写我们在健康和安全等不可验证领域的强化学习方法。

「对于在验证成本高昂或无法验证的领域来说,这可能是重要的一步。」

方法介绍

CaT 流程如下:

  • 探索阶段:针对每个输入提示,当前策略生成一组并行推演结果(parallel rollouts);
  • 合成阶段:一个冻结的锚点模型(frozen anchor)(即初始策略,仅作为估计器使用)以这组推演结果为条件,通过整合遗漏、矛盾和不完整的解决方案,合成一个单一的估计参考答案;
  • 角色分离设计:当前策略负责探索,生成多样化的推演;锚点模型作为稳定的估计器,将额外的推理计算转化为完全源于模型行为的教学信号;
  • 计算效率:CaT 复用了强化学习中常见的组推演计算预算(如 GRPO),除已有采样计算外几乎不引入额外开销。

这种方法的核心优势在于:无需人工标注或外部验证器,仅通过模型自身的推理过程就能生成高质量的监督信号,适用于数学推理、医疗咨询、创意写作等缺乏标准答案的任务。

此外,本文还通过提供奖励函数来优化模型,使其接近预估参考值,称之为 CaT-RL。

对于数学等可验证领域,这很容易。只需检查预估参考答案是否与策略部署的答案相同即可。如果相同,则奖励 +1!

对于自由聊天等不可验证领域,这要困难得多!因为有很多有效答案…… 所以本文做了一些不同的事情。

方法是模型再次查看预估参考值,并生成一个标准列表(一个评估标准),以二进制是 / 否检查表的形式对其进行描述。然后,让 GPT-4o 判断每个策略部署是否满足评估标准,并给予奖励。

实验

本文评估了 Compute as Teacher 的两种模式:CaT 和 CaT-RL,实验涵盖三个模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

结果 1:CaT-RL 不仅超越了初始策略,其表现也优于 CaT 方法(图 4)。

结果 2:自拟评分标准(Self-proposed rubrics)在不可验证领域可以作为有效奖励。图 5(左)显示,自拟评分标准的表现优于模型评判,并可与人类专家注释相媲美。

结果 3:基于自拟评分标准的强化学习(CaT-RL)优于监督微调(SFT)。尽管在处理不可验证输出时,SFT 是事实上的默认方法,但在图 5(右)中显示:当奖励来自自拟评分标准时,RL 效果更佳。

结果 4:CaT 比单样本和选择基线模型能产生更好的参考估计。图 6 为在推理时间与其他方案进行了比较,结果表明 CaT 产生的参考估计最强,并且用途最广泛。

结果 5:CaT 会随着 rollout 数量 G 的增加而扩展。图 7(左)显示,在 MATH-500 上,扩展是单调的,而在 HealthBench 上,CaT 在大约 4 次 rollout 后达到平台期。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员袁立辟谣 "抗癌成功" ,称颈部纱布实为眼罩,怒斥平台封其账号却放任谣言传播,同时回应被陈建斌、朱媛媛与辛柏青“欺负”之说

演员袁立辟谣 "抗癌成功" ,称颈部纱布实为眼罩,怒斥平台封其账号却放任谣言传播,同时回应被陈建斌、朱媛媛与辛柏青“欺负”之说

鲁中晨报
2026-05-25 16:23:16
率台湾青年看 “神舟二十三号”发射,连战之子:中华民族的里程碑

率台湾青年看 “神舟二十三号”发射,连战之子:中华民族的里程碑

海峡导报社
2026-05-25 17:21:03
演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

秋姐居
2026-05-25 19:47:13
两年减少1.2亿张,中国信用卡数量跌回2018年水平,发生了什么?

两年减少1.2亿张,中国信用卡数量跌回2018年水平,发生了什么?

风向观察
2026-05-25 19:35:10
“爸爸不接电话,妈妈不让回家”,昨天杭州暴雨,17岁女孩情绪崩溃独坐白马湖桥边,关键时刻,他们冲了出去……

“爸爸不接电话,妈妈不让回家”,昨天杭州暴雨,17岁女孩情绪崩溃独坐白马湖桥边,关键时刻,他们冲了出去……

都市快报橙柿互动
2026-05-25 18:23:51
iPhone 20原型机曝光:无边框+四微曲屏,外观史诗级革新,屏占比达到苹果最高水平

iPhone 20原型机曝光:无边框+四微曲屏,外观史诗级革新,屏占比达到苹果最高水平

鲁中晨报
2026-05-25 17:30:37
央视曝光!“销量第一”,全是自导自演!又一骗局被扯下遮羞布

央视曝光!“销量第一”,全是自导自演!又一骗局被扯下遮羞布

吃青菜长高
2026-05-25 17:54:38
迟宗琳意外身亡,年仅42岁

迟宗琳意外身亡,年仅42岁

蓬勃新闻
2026-05-25 17:06:21
西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

我爱英超
2026-05-25 18:54:10
这美女也太顶了!主教练喝水好啊!得看!

这美女也太顶了!主教练喝水好啊!得看!

柚子说球
2026-05-25 20:11:02
外媒:中国J-16挂8枚PL-15,令美日欧恐慌

外媒:中国J-16挂8枚PL-15,令美日欧恐慌

世家宝
2026-05-25 19:54:48
多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

健康之光
2026-05-25 18:32:03
韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

奋斗在韩国
2026-05-25 13:14:27
无缘世界杯!皇马6500万名将晒图质疑西班牙主帅:我进西甲最佳阵

无缘世界杯!皇马6500万名将晒图质疑西班牙主帅:我进西甲最佳阵

我爱英超
2026-05-25 22:03:22
有50年从业经历的煤老板坑了博士县长

有50年从业经历的煤老板坑了博士县长

深度财线
2026-05-25 14:32:25
雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

鲁中晨报
2026-05-25 21:22:20
兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

谭谈社会
2026-05-24 23:20:37
双曲线发力,上汽大众“全能源”布局开拓新境界

双曲线发力,上汽大众“全能源”布局开拓新境界

车市雷达
2025-12-06 15:53:13
郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

全景体育V
2026-05-25 21:39:23
拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

影孖看世界
2026-05-25 23:43:38
2026-05-26 04:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13080文章数 142652关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

游戏
健康
艺术
时尚
教育

《暗黑破坏神4》国服本体免费活动延长至8月4日

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

艺术要闻

于东来计划建小区,建筑设计用材都公开,地产界震动?

Bella的戛纳之旅,次次“神级”表现

教育要闻

罚抄10遍被投诉,一个电话让全班没了作业,孩子就毁这类家长手里

无障碍浏览 进入关怀版