网易首页 > 网易号 > 正文 申请入驻

「强化学习教师」登场!7B模型击败671B DeepSeek-R1,小模型也可训练大模型了

0
分享至

俗话说,“授人以鱼,不如授人以渔。”即:送人一条鱼,不如教他学会如何捕鱼。

如今,这句话背后的思想,也被应用在了强化学习(RL)中

刚刚,由“Transformer八子”之一 Llion Jones 联合创立的 AI 初创公司 Sakana AI 提出了一种新的 RL 范式——“强化学习教师”(Reinforcement Learned Teacher,RLT) 。

据介绍,RLT 通过学习如何教学而非直接解决问题,来教会大语言模型(LLM)如何进行推理,有效解决了传统教师模型 RL 过程耗时长、成本高、应用领域窄等诸多难题。

图|强化学习教师(RLT)通过训练教师模型从问答对中生成解释,来优化学生模型的理解能力。与其从头开始解决问题,教师的奖励应基于其解释的有效性,即这些解释如何帮助学生恢复正确的解决方案。

在这一过程中,RLT 像人类教师一样“学习如何教学”,并基于已知解决方案输出清晰的分步解释。教师模型不再因自行解决问题而获得奖励,而是因其解释对学生模型有多大帮助而获得奖励。这种反馈机制使得教师模型的训练与其「帮助学生」的实际目的相一致,提升了训练效果。

结果显示,在教授推理技能方面,7B 大小的教师模型的表现超过了规模大几个数量级的模型(如 671B DeepSeek-R1)。而且,这一结果不仅适用于规模相同的学生模型,也适用于规模远大于教师模型(如 32B)的学生模型。

相关研究论文以“

Reinforcement Learning Teachers of Test Time Scaling
”为题,已发表在预印本网站 arXiv 上。

论文链接:

https://arxiv.org/abs/2506.08388

强化学习新范式:学习「教学」

受人类教师工作方式的启发,正如一位优秀的人类教师无需重新发现数学定理就能解释它们一样,RLT 在输入提示中同时获得每个问题的题目和正确答案,它们的任务是通过有帮助的、分步解释来帮助学生模型从中学习

这项研究的主要亮点在于:改变了训练教师模型的方式。RLT 被训练以最大化其解释的清晰度和指导性,类似于人类教师在课堂上评估学生理解程度的方式。具体来说,如果学生模型能够轻松理解教师模型对问题的解释所给出的正确解决方案,这表明教师模型教学效果好。

这一方法解决了传统“学习解决”框架中的两大问题。首先,这一新训练循环将教师模型训练与其实际目的(即通过蒸馏/冷启动机制帮助学生)相对齐,使其效果显著提升。其次,向 RLT 同时输入问题及其正确答案,使研究团队能够使用小而高效的教师模型,这些模型在没有输入的情况下无法独立解决问题。

相比于规模更大的教师模,如 DeepSeek-R1(671B),7B RLT 模型在数学和科学领域的多个挑战性基准测试中表现更优。

值得一提的是,当使用 7B RLT 模型训练更大规模(如 32B)的学生模型时,也表现出了更好的结果。这表明,小型专业化教师模型能够将深度推理技能转移到规模大得多的学生模型中

他们还发现,RLT 与传统 RL 方法相辅相成。当作为起点使用时,RLT 帮助学生模型达到了更高的性能水平。从成本角度来看,差异非常显著:使用 RLT 训练 32B 学生模型在单个计算节点上不到一天即可完成,而传统 RL 在相同硬件上则需要数月时间

迈向更先进、更经济的推理模型

研究团队表示,RLT 重新定义了构建推理模型的方式。与从头开始训练模型解决问题不同,RLT 训练模型清晰地解释已知解决方案,这与经验丰富的人类教师相似。这种转变使得将 RL 应用于此前被认为超出语言模型直接处理能力的领域成为可能。

同时,RLT 可能大大降低先进模型训练的成本。无需在每个阶段都依赖庞大的系统,我们可以训练小型、专业化的教师模型,并利用它们高效地训练更大规模的模型。

展望未来,RLT 框架暗示着一个更令人着迷的构想:一个同时扮演教师和学生双重角色的模型。通过为自身生成解释,模型能够随着时间的推移,逐步学会如何更好地自我教学。

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

芳姐侃社会
2026-05-09 17:15:10
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

音乐时光的娱乐
2026-05-04 23:51:39
海岛文明的宿命:为什么香港近年来发展缓慢?

海岛文明的宿命:为什么香港近年来发展缓慢?

龙牙的一座山
2026-05-10 09:14:43
张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

拳击时空
2026-03-29 04:58:33
局势告急,11国高层开会,人民日报有言在先,别指望中国拉菲一把

局势告急,11国高层开会,人民日报有言在先,别指望中国拉菲一把

桑启红原
2026-05-10 12:04:03
说停就炸?俄胜利日停火遭乌打脸,远程摧毁700公里外炼油厂

说停就炸?俄胜利日停火遭乌打脸,远程摧毁700公里外炼油厂

通鉴史智
2026-05-10 09:30:59
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

周哥一影视
2026-04-17 06:45:59
幸亏听了中国的劝!短短48小时内,伊朗连出三招,特朗普阳谋被破

幸亏听了中国的劝!短短48小时内,伊朗连出三招,特朗普阳谋被破

史行途
2026-05-11 04:45:47
理想设计副总裁回应MEGA争议:外观是技术最优解,内饰承认“判断失误”

理想设计副总裁回应MEGA争议:外观是技术最优解,内饰承认“判断失误”

驱动中国
2026-05-08 10:58:21
命中了!伊朗大胜!

命中了!伊朗大胜!

财经要参
2026-04-04 13:24:51
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
跌出世界前50!郑钦文无缘法网种子席位,法网后或继续大幅下滑

跌出世界前50!郑钦文无缘法网种子席位,法网后或继续大幅下滑

全景体育V
2026-05-10 05:30:44
伦敦世乒赛国乒双杀日本,成就12连冠历史性胜利

伦敦世乒赛国乒双杀日本,成就12连冠历史性胜利

小潌拍客在北漂
2026-05-11 02:44:10
央视主持阵容调整:三人告别,杨帆受冷落,撒贝宁朱迅意外

央视主持阵容调整:三人告别,杨帆受冷落,撒贝宁朱迅意外

老缰科普
2026-05-10 21:28:03
太过分!皮皮虾风波当事人把泰国濑尿虾说成普通虾,至今没有道歉

太过分!皮皮虾风波当事人把泰国濑尿虾说成普通虾,至今没有道歉

小徐讲八卦
2026-05-10 07:56:14
随着广厦86-81山西!诞生4个不可思议,还有3个不争事实

随着广厦86-81山西!诞生4个不可思议,还有3个不争事实

晚雾空青
2026-05-11 02:03:51
2026年一季度全国结婚登记169.7万对,同比减少11.3万对

2026年一季度全国结婚登记169.7万对,同比减少11.3万对

何亚福
2026-05-10 08:03:57
2.16万一把椅子!丰田皇冠驾驶座被改成办公椅:限量70把需抽签

2.16万一把椅子!丰田皇冠驾驶座被改成办公椅:限量70把需抽签

快科技
2026-05-10 20:05:15
2026-05-11 05:43:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
健康
亲子
家居
数码

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

亲子要闻

从第一声呼唤开始,爱就有了名字

家居要闻

菁英人居 全能豪宅

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

无障碍浏览 进入关怀版