网易首页 > 网易号 > 正文 申请入驻

7B模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

Thinking模式当道,教师模型也该学会“启发式”教学了——

由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了!

这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。

用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。

训练比自己大3倍的学生模型也不在话下。

对此有网友评价:我们刚刚才意识到,最好的老师不是房间里最聪明的人。

像人类老师一样

许多高级推理模型,如DeepSeek-R1,遵循两阶段的训练过程:首先训练教师模型,然后使用其输出训练学生模型,最终产品为学生模型。

传统上,这些教师模型通过昂贵的强化学习(RL)进行训练,模型必须从头学习解决复杂问题,只有在得到正确答案时才会获得奖励:

先让教师模型得到问题的答案,再把答案仔细过滤并重新用作学生模型的训练数据。

这种方法缓慢、昂贵且往往过于偏狭,过于依赖教师模型自身能力。因为教师模型拿到的仅仅只有问题,它们需要自己思考给出结果。

而Sanaka AI的新方法不再通过解决问题来教学,而是让新的强化学习教师(RLTs)“学会教学”

要求它们根据已知解决方案输出清晰的逐步解释,就像优秀的人类教师一样。

就像一位好教师不需要重新发现数学定理来解释它们一样,RLTs在输入提示中既获得问题的内容,也获得每个问题的正确答案

它们的任务是提供有助于学生模型学习的、逐步的详细解释,从而连接这些知识点。如果学生模型能够根据教师对问题的解释轻松理解正确解决方案,那么这就是RLTs做得好的信号。

也就是说,对RLTs的奖励不再是能自己解决问题,而是能解释对学生模型有多有帮助。

Sanaka AI的新方法解决了传统方法中的两个问题:

首先,新方法的训练循环使教师训练与其真正目的(为学生进行蒸馏/冷启动提供帮助)保持一致,从而大大提高了效率。

其次,将问题和正确答案同时输入RLT,能帮助原本无法独立解决问题的小型模型学会教学。

这些特性使Sanaka AI的新方法能更快、更经济、更有效地训练出具有强大推理能力的学生模型。

小型教师模型的“不合理但有效”

为了验证新方法的有效性,Sanaka AI用新方法训练了一个7B的RLT小模型作为教学模型与此前最先进的方法进行比较。

竞争方法使用规模更大的模型,如DeepSeek-R1和QwQ,并结合GPT-4o-mini等工具在用于训练学生模型之前清理其输出,以获得额外帮助。

结果发现:使用相同的Qwen2.5学生模型、相同的问题以及相同的评估设置,RLT以远少的计算量取得了比DeepSeek-R1和QwQ更好的效果。

把学生模型的规模扩大,结果同样令人惊讶:7B的RLT成功训练了一个32B的学生模型,其规模是自己四倍以上,并取得了优异的成果。

Sanaka AI的新方法还可以和传统RL方法相辅相成:

上图展示了在2024年美国邀请数学考试(AIME)、竞赛数学和研究生级问答基准(GPQA)上的平均性能。

新方法和传统RL方法联合使用,使RLT获得了改进性能,并补充了传统RL方法在问题解决方面的应用。

用作起点时,RLT帮助学生模型达到了更高的性能水平。

从成本角度来看,差异非常显著:使用RLT训练32B的学生模型仅需单个计算节点一天时间,而传统RL方法在相同硬件上需要数月。

一项定性分析揭示了RLTs提供的解释与Deepseek-R1的蒸馏轨迹之间存在一些差异:

Deepseek-R1的输出常常依赖于外部工具,例如计算器、网络上的讨论以及玩梗,包括一些具有误导性的内容。

相比之下,RLT提供的解释避免了令人困惑的语言,并增加了额外的逻辑步骤来帮助学生。

这些直观的改进能够转化为学生语言模型的改进学习,像人类专家一样简洁且清晰。

参考链接:
https://x.com/SakanaAILabs/status/1936965841188425776
博客:https://sakana.ai/rlt
论文:https://arxiv.org/abs/2506.08388
代码:github.com/SakanaAI/RLT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:周一稳了!央行深夜放出“王炸”,这几个板块将直接起飞!

A股:周一稳了!央行深夜放出“王炸”,这几个板块将直接起飞!

另子维爱读史
2026-01-18 20:11:46
中纪委明确饭局红线:公职人员,这5类饭局别碰

中纪委明确饭局红线:公职人员,这5类饭局别碰

娱乐督察中
2026-01-16 16:25:33
3张照片背后,娱乐圈正在悄悄改变的一件事

3张照片背后,娱乐圈正在悄悄改变的一件事

传递满满正能量
2026-01-18 14:54:02
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
上海知青被迫与西藏姑娘分开,37年后相遇,才得知儿孙满堂

上海知青被迫与西藏姑娘分开,37年后相遇,才得知儿孙满堂

墨染尘香
2024-08-11 23:56:00
顶薪先生连场弃用!成山西管理层开刀第一人?苦坐冷板凳表情沉重

顶薪先生连场弃用!成山西管理层开刀第一人?苦坐冷板凳表情沉重

理工男评篮球
2026-01-18 20:19:06
俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

百科密码
2026-01-16 15:53:58
聂卫平告别仪式:兰莉娅现身,长子次子均已结婚,儿媳身份曝光!

聂卫平告别仪式:兰莉娅现身,长子次子均已结婚,儿媳身份曝光!

古希腊掌管松饼的神
2026-01-18 11:56:16
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

潘粤明评价获证实!董洁22年后与蓝颜知己再牵手

独舞独舞
2026-01-18 06:37:17
俄乌战争,击碎了多少“神一样的存在”

俄乌战争,击碎了多少“神一样的存在”

望岳
2026-01-12 20:36:38
蒋介石扇宋子文耳光,宋霭龄怒称:敢打我弟,宋家绝不善罢甘休!

蒋介石扇宋子文耳光,宋霭龄怒称:敢打我弟,宋家绝不善罢甘休!

唠叨说历史
2026-01-16 14:16:54
贾国龙活成了堂吉诃德,向着想象中的风车冲锋,老罗都于心不忍

贾国龙活成了堂吉诃德,向着想象中的风车冲锋,老罗都于心不忍

上林院
2026-01-16 21:28:03
中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

长歌侃娱
2026-01-16 07:55:03
3-2爆冷!18岁小将爆发,掀翻世界第3,恭喜国乒,包揽男单冠亚军

3-2爆冷!18岁小将爆发,掀翻世界第3,恭喜国乒,包揽男单冠亚军

体育就你秀
2026-01-18 20:03:41
日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

易昂杨
2026-01-17 12:08:13
库里14分率8人得分上双勇士击败黄蜂3连胜,追梦20分6助攻

库里14分率8人得分上双勇士击败黄蜂3连胜,追梦20分6助攻

湖人崛起
2026-01-18 11:50:17
杨兰兰案风波再升级!疑派“替身”去警局报到,若坐实后果很严重

杨兰兰案风波再升级!疑派“替身”去警局报到,若坐实后果很严重

谈史论天地
2026-01-18 13:41:12
插播一条日本新闻,弥补了国内未见报道的遗憾

插播一条日本新闻,弥补了国内未见报道的遗憾

生活时尚导刊
2026-01-18 01:02:26
三星堆竟不属于任何朝代?考古学家颤抖:中华文明源头要改写!

三星堆竟不属于任何朝代?考古学家颤抖:中华文明源头要改写!

芊芊子吟
2026-01-09 11:30:08
2026-01-18 20:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12026文章数 176360关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

梁小龙账号发告别信:原谅不辞而别 你们替我好好活着

头条要闻

梁小龙账号发告别信:原谅不辞而别 你们替我好好活着

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

时尚
艺术
手机
本地
军事航空

她们的脸,为什么总是让人一见倾心?

艺术要闻

宋延龙油画作品欣赏

手机要闻

小米17 Pro Max手机3.0.36.0版本截屏体验问题修复

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

军事要闻

伊拉克国防部:已全面接管阿萨德空军基地

无障碍浏览 进入关怀版