网易首页 > 网易号 > 正文 申请入驻

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

0
分享至

来源:市场资讯

(来源:机器之心)

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。

这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定性规则检查难以实施。

在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。

然而,当后训练缺乏真实标注时,学习信号从何而来?

为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:

推理计算是否可以替代缺失的监督?

本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。

结果显示,推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可验证领域(MATH-500 最高提升 27%;HealthBench 提升 12%)。结合强化学习的CaT(CaT-RL)可进一步获得增益(最高提升 33% 和 30%),训练后的策略甚至能超越初始教师信号。


  • 论文地址:https://arxiv.org/pdf/2509.14234

  • 论文标题:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

有意思的是,这篇论文作者全部都在 Meta 超级智能实验室做过研究(∗Work done at Meta Superintelligence Labs)。我们不得不感叹,近期,他们发文的频率真是太快了。

在论文上线的同时,这项研究也引起了大家广泛讨论,有人表示:CaT 解决了 RL 中缺少监督的难题,这是一种优雅的解决方案。


还有人认为:CaT 的这项研究意义重大,它将计算本身转化为监督。如果将其规模化,可能会改写我们在健康和安全等不可验证领域的强化学习方法。


「对于在验证成本高昂或无法验证的领域来说,这可能是重要的一步。」


方法介绍

CaT 流程如下:

  • 探索阶段:针对每个输入提示,当前策略生成一组并行推演结果(parallel rollouts);

  • 合成阶段:一个冻结的锚点模型(frozen anchor)(即初始策略,仅作为估计器使用)以这组推演结果为条件,通过整合遗漏、矛盾和不完整的解决方案,合成一个单一的估计参考答案;

  • 角色分离设计:当前策略负责探索,生成多样化的推演;锚点模型作为稳定的估计器,将额外的推理计算转化为完全源于模型行为的教学信号;

  • 计算效率:CaT 复用了强化学习中常见的组推演计算预算(如 GRPO),除已有采样计算外几乎不引入额外开销。

这种方法的核心优势在于:无需人工标注或外部验证器,仅通过模型自身的推理过程就能生成高质量的监督信号,适用于数学推理、医疗咨询、创意写作等缺乏标准答案的任务。


本文最大创新是将额外的推理计算转化为监督信号,在公式表达上:对于每个输入提示 q,当前策略 在 GRPO 时间步 t 生成一组 G 个并行推演结果 o1:G。然后一个冻结的锚点策略(通常是初始模型)通过整合所有推演结果中的信息,解决遗漏和矛盾,合成一个统一的参考响应 s。最后是奖励生成,分两种场景,将估计的参考响应 s 转化为奖励信号。


此外,本文还通过提供奖励函数来优化模型,使其接近预估参考值,称之为 CaT-RL。

对于数学等可验证领域,这很容易。只需检查预估参考答案是否与策略部署的答案相同即可。如果相同,则奖励 +1!

对于自由聊天等不可验证领域,这要困难得多!因为有很多有效答案…… 所以本文做了一些不同的事情。

方法是模型再次查看预估参考值,并生成一个标准列表(一个评估标准),以二进制是 / 否检查表的形式对其进行描述。然后,让 GPT-4o 判断每个策略部署是否满足评估标准,并给予奖励。


实验

本文评估了 Compute as Teacher 的两种模式:CaT 和 CaT-RL,实验涵盖三个模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

结果 1:CaT-RL 不仅超越了初始策略,其表现也优于 CaT 方法(图 4)。


结果 2:自拟评分标准(Self-proposed rubrics)在不可验证领域可以作为有效奖励。图 5(左)显示,自拟评分标准的表现优于模型评判,并可与人类专家注释相媲美。


结果 3:基于自拟评分标准的强化学习(CaT-RL)优于监督微调(SFT)。尽管在处理不可验证输出时,SFT 是事实上的默认方法,但在图 5(右)中显示:当奖励来自自拟评分标准时,RL 效果更佳。

结果 4:CaT 比单样本和选择基线模型能产生更好的参考估计。图 6 为在推理时间与其他方案进行了比较,结果表明 CaT 产生的参考估计最强,并且用途最广泛。


结果 5:CaT 会随着 rollout 数量 G 的增加而扩展。图 7(左)显示,在 MATH-500 上,扩展是单调的,而在 HealthBench 上,CaT 在大约 4 次 rollout 后达到平台期。


了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海双雄引援 申花是一支没有秘密球队 隔壁海港消息密不透风

上海双雄引援 申花是一支没有秘密球队 隔壁海港消息密不透风

80后体育大蜀黍
2026-01-07 23:31:22
为啥老一辈的人似乎更坚韧,而年轻人却更容易陷入抑郁?网友解疑

为啥老一辈的人似乎更坚韧,而年轻人却更容易陷入抑郁?网友解疑

一桶浆糊要一统江湖
2025-12-20 22:55:04
8日凌晨战报:16人进单打16强,3场冷门,伊藤出局,林诗栋对手强

8日凌晨战报:16人进单打16强,3场冷门,伊藤出局,林诗栋对手强

刘哥谈体育
2026-01-08 08:05:12
为什么说巨杉是一种“可怕”的生物?它“可怕”在哪呢?

为什么说巨杉是一种“可怕”的生物?它“可怕”在哪呢?

向航说
2025-12-31 00:40:02
《骄阳似我》结局,播放量破6.1亿,留下的3个疑问,是时候解开了

《骄阳似我》结局,播放量破6.1亿,留下的3个疑问,是时候解开了

糊咖娱乐
2026-01-07 12:15:52
2-2!英超争四一夜大变:曼联反超切尔西,1黑马进前五,6队差3分

2-2!英超争四一夜大变:曼联反超切尔西,1黑马进前五,6队差3分

体育知多少
2026-01-08 07:59:34
这些无耻新闻,都引起公愤了!

这些无耻新闻,都引起公愤了!

胖胖说他不胖
2026-01-06 10:00:08
液冷产业业绩兑现可期 机构看好15只个股

液冷产业业绩兑现可期 机构看好15只个股

证券时报
2026-01-08 06:23:22
特朗普称印度订购68架美制“阿帕奇”直升机被延迟5年 印媒:说法不实

特朗普称印度订购68架美制“阿帕奇”直升机被延迟5年 印媒:说法不实

财联社
2026-01-07 16:46:51
内鬼开始下手了?当年颠覆苏联手法在中国重现,蹊跷事情接连发生

内鬼开始下手了?当年颠覆苏联手法在中国重现,蹊跷事情接连发生

文史达观
2024-08-21 17:38:14
戴旭大校批评现在的演习:都是一群长枪短炮对着拍,实际很危险

戴旭大校批评现在的演习:都是一群长枪短炮对着拍,实际很危险

安安说
2026-01-07 10:10:28
早知道|弗莱彻“救火”还是没赢

早知道|弗莱彻“救火”还是没赢

北青网-北京青年报
2026-01-08 08:10:03
惨遭反噬!欧洲,噩梦开始了!

惨遭反噬!欧洲,噩梦开始了!

大嘴说天下
2026-01-07 22:12:40
报价1个亿!利物浦求购巴黎23岁妖刀 上赛季独造41球

报价1个亿!利物浦求购巴黎23岁妖刀 上赛季独造41球

球事百科吖
2026-01-08 06:39:21
泽连斯基:俄乌冲突有望在今年上半年结束,预计很快与特朗普再度会晤

泽连斯基:俄乌冲突有望在今年上半年结束,预计很快与特朗普再度会晤

金十数据
2026-01-08 08:37:10
没解约?张水华穿着361度衣服直播 疑联手骗网友4个月 代言费曝光

没解约?张水华穿着361度衣服直播 疑联手骗网友4个月 代言费曝光

风过乡
2026-01-07 09:23:25
李在明访华首战告捷:韩国转变立场不现实,但可对华“搁置争议”

李在明访华首战告捷:韩国转变立场不现实,但可对华“搁置争议”

陈菲副教授
2026-01-08 08:30:03
江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

台州交通广播
2026-01-07 06:53:59
最高法审判管理办公室:上网裁判文书隐去法官姓名和案号,显属不当

最高法审判管理办公室:上网裁判文书隐去法官姓名和案号,显属不当

新京报
2026-01-08 07:12:13
项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

读鬼笔记
2026-01-06 19:42:20
2026-01-08 09:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1950681文章数 5187关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

头条要闻

牛弹琴:美国又干了件石破天惊的事 俄罗斯遭沉重打击

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

亲子
旅游
教育
本地
健康

亲子要闻

车厘子吃太多,孩子差点就没命!

旅游要闻

西安藏不住的秦岭神仙秘境!自带仙气,韵味十足,冬天也很美

教育要闻

热力学3大基本特征!考试必考别丢分

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版