网易首页 > 网易号 > 正文 申请入驻

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

0
分享至



如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

清华团队用两个 1.5B 模型给出了答案:不仅可行,还特别高效。

  • 核心发现: 单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力
  • 意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"
  • 关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多





  • 技术博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 开源模型:https://huggingface.co/collections/hbx/justrl
  • 评测脚本:https://github.com/thunlp/JustRL

背景:RL 训练小模型的 "技术军备竞赛"

2025 年初,DeepSeek-R1 开源后,如何用 RL 训练 1.5B 级别的推理模型成为了热门研究方向。短短几个月内,这个领域经历了快速的技术演进:早期的工作尝试超参数调优和长度控制;随后出现了多阶段渐进训练,每个阶段调整数据难度和 RL 超参数;也有方法引入了课程学习,用部分解作为提示精心设计难度梯度;最激进的做法直接将 rollout 数量提升到 512 次,用算力进行暴力探索。



近期工作用到的技术对比

这些方法都取得了不错的效果,性能在不断刷新。 动态采样、KL 重置、自适应惩罚、长度控制…… 各种稳定技术和优化 trick 被逐一引入。每个新工作都在前人基础上增加新的模块和机制,整个训练 pipeline 变得越来越复杂。

然而,这种复杂度的增长也带来了困惑:这些技术真的都是必要的吗?当不同工作组合使用不同的技术子集时,我们很难分辨哪些是解决根本问题的,哪些只是在修补其他设计选择带来的副作用。更重要的是,如果 baseline 本身就不稳定,那么为了稳定它而加入的技术,可能只是在治标而非治本。

清华团队带着一个朴素的想法开始了这项工作:"如果我们用最基础的配方,但训练得足够充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就这样"。

方法:极简到极致的训练配方

JustRL 的设计哲学是 "减到不能再减"。研究者刻意避免了近期工作中常见的复杂技术,只保留了最基础的组件。

训练配方简单到令人意外: 算法使用标准的 GRPO,没有任何魔改;训练只有一个阶段,从头到尾连续进行;超参数完全固定,不做任何动态调整;数据来自常规的数学问题集,不进行离线难度筛选、不做数据增强、不使用 dynamic sampling。

更关键的是,同一套超参数在两个完全不同的起点上都有效。 第一个实验使用 DeepSeek-R1-Distill-Qwen-1.5B 作为基座,这是一个相对较弱的起点(AIME 2024 准确率 29%);第二个实验使用 OpenMath-Nemotron-1.5B,这已经是一个相当强的基座(AIME 2024 准确率 61%)。研究者没有针对不同模型调整任何参数,在 9 个数学推理基准(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面评测显示,JustRL 达到了 1.5B 模型的最高水平。



一个关键问题:会不会是用了更多算力?正好相反,我们用了更少。

从弱基座起步的 JustRL-DeepSeek-1.5B,最终在 9 项基准上平均达到 54.87%,超越了采用 9 阶段训练的 ProRL-V2(53.08%)。更值得注意的是计算效率:JustRL 使用的总 token 预算约为 1.4E+11,仅为 ProRL-V2 的一半,为 BroRL 的五分之一。在算力 - 性能的权衡上,JustRL 达到了一个新的平衡点。

从强基座起步的 JustRL-Nemotron-1.5B 表现更加出色,平均准确率达到 64.32%,略微超过使用课程学习的 QuestA(63.81%)。关键的差异在于,QuestA 需要完整的推理轨迹来构建 hint,还要分阶段调整提示难度;而 JustRL只需要标准的问题与标答,不需要额外的数据工程,总 token 预算也相对较小。

整个训练在 32 张 A800-80GB GPU 上进行,每个模型训练约 15 天。相比一些需要多阶段训练、频繁调参的方法,JustRL 的工程复杂度和计算开销都显著更低。这些结果的意义不仅在于数字本身,更在于它们揭示的一个可能性:很多时候,我们可能低估了简单方法在充分 scale 下的潜力。

意外发现:4000 步训练,异常平稳

也许比最终性能更令人惊讶的是训练过程本身。研究者详细记录了 JustRL-DeepSeek-1.5B 整个 4000 步 RL 过程中的关键动态指标:策略熵、平均奖励、响应长度。

策略熵始终在 1.2-1.4 范围内健康震荡,没有出现向上漂移(探索崩塌)或向下崩溃(过早收敛);平均奖励从 - 0.6 单调上升到 +0.4,虽然有噪声但趋势清晰,没有长时间的 plateau 或突然的下跌;响应长度从初始的 8000 tokens 自然压缩到 4000-5000 tokens,并稳定在这个范围,这一切都是在没有使用 overlong penalty 的情况下发生的,仅仅设置了最大 16k 的上下文长度。



JustRL-DeepSeek-1.5B 的训练 dynamic

这与很多现有工作报告的训练困难形成鲜明对比。

  • ProRL:"我们观察到熵崩溃和训练不稳定性…"
  • BroRL:"训练到瓶颈只能加 rollout 加大探索…"
  • QuestA:"需要课程学习避免熵崩塌(简单题)或者减缓学习效率(难任务)…"

而在 JustRL 的训练中,这些问题都没有出现。这给了我们一个有趣的观察:也许在某些配置下,当 baseline 足够简单、训练规模足够充分时,一些在复杂系统中出现的稳定性问题可能就不容易发生。

一个有趣的插曲:加 "优化" 反而更差

训练过程中,团队尝试了两个 "按常理应该有帮助" 的修改。这两个实验的结果颇具启发性。

第一个实验是加入显式的长度惩罚。 动机很直接:不少工作证明长度惩罚有效,那么添加一个惩罚项应该能让模型输出更简洁,提高训练效率。结果却令人意外:性能从 55% 下降到 50%。深入分析发现,显式惩罚导致了熵崩塌,熵值从 1.2-1.4 降到 0.4-0.6 ,探索空间被过早压缩。模型还没来得及充分探索有效的解题策略,就被迫收敛到更短的响应上。

第二个实验是换用更宽松的验证器。 逻辑同样合理:减少假阴性(正确答案被误判为错误)应该能提供更清晰的学习信号。但性能继续下滑到 45%。可能的原因包括:更宽松的验证器虽然减少了误判,但也降低了学习信号的细粒度 ——"几乎正确" 和 "完全正确" 不再有明显区分;另一种可能是,严格的格式要求实际上在迫使模型发展更鲁棒的内部推理,而宽松的验证器消除了这种压力。



两组 ablation 效果

这说明什么?一方面,ablation 在接近 2ksteps 的尺度上才开始分道扬镳,意味着现有的 RL tricks ablation 可能在小规模上(几十 / 几百步)得到的结论不一定适合于大规模 scaling,要验证 tricks 的作用可能长期才能看出区别;另一方面,不是说这些技术本身不好(它们在其他工作中确实有效),而是:

  • 技术的价值高度依赖于baseline 的特性
  • 在一个稳定的 baseline 上,某些 "优化" 可能适得其反
  • 不是所有看起来合理的东西都该加

这个工作想说什么?

不是要证明 "简单永远最好"

  • 不是说: "复杂方法都没用"
  • 而是说: "我们可能低估了简单方法在充分 scale 下的潜力"
  • 不是说: "大家都做错了"
  • 而是说: "建立清晰的简单 baseline,能更准确地评估复杂技术的价值"
  • 不是说: "永远别用复杂技术"
  • 而是说: "先验证简单方法的极限在哪,再决定是否需要复杂度"

写在最后:关于 "够用" 的哲学

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要证明 "简单就是答案"。它想提醒的是:在不断追求技术创新的同时,别忘了回头看看 —— 最朴素的方法,在足够的努力下,能做到什么程度。

也许在 RL 训练小模型这个领域,我们一直在做加法:加阶段、加调度、加采样策略、加稳定技巧。也许现在是时候试试奥卡姆剃刀的做法:减到不能再减,看看还剩什么。JustRL 的发现是:剩下的,可能已经够用了。

如果你正在做 RL,不妨试试:先把简单配方训练充分,看看它能带你走多远。

也许你会发现:够用了。

也许你会发现:还不够,但现在你知道差在哪了。

无论哪种,都是有价值的收获。"如无必要,勿增实体"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国、法国、瑞典、挪威宣布派兵

德国、法国、瑞典、挪威宣布派兵

第一财经资讯
2026-01-15 08:11:20
米切尔35+7+9骑士双杀76人 恩比德13000分里程碑加兰伤退

米切尔35+7+9骑士双杀76人 恩比德13000分里程碑加兰伤退

醉卧浮生
2026-01-15 10:30:57
远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

法老不说教
2026-01-14 14:43:04
痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

红星新闻
2026-01-15 01:12:10
大雪暴雪要来了!江苏气温将暴跌

大雪暴雪要来了!江苏气温将暴跌

锡城头条
2026-01-14 17:16:12
安徽知名医生方朝晖去世!仅59岁,曝原因太可惜,疑过度劳累导致

安徽知名医生方朝晖去世!仅59岁,曝原因太可惜,疑过度劳累导致

裕丰娱间说
2026-01-15 10:03:47
狂赚7亿也不给面子!合川文旅正面“刚”流量,太解气!

狂赚7亿也不给面子!合川文旅正面“刚”流量,太解气!

以茶带书
2026-01-14 21:53:18
与辉同行“皖西麻黄鸡”遭打假,产品已下架!直播间83元3只,产业协会:单只养殖成本就超150元,未找到供货记录

与辉同行“皖西麻黄鸡”遭打假,产品已下架!直播间83元3只,产业协会:单只养殖成本就超150元,未找到供货记录

每日经济新闻
2026-01-14 21:47:05
痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

180视角
2026-01-15 09:32:04
一个悠悠球卖1万8千元!部分地区已断货,网友:我的童年不配……

一个悠悠球卖1万8千元!部分地区已断货,网友:我的童年不配……

环球网资讯
2026-01-14 19:34:11
27岁男子和女主播订婚后,才知道对方39岁,有仨娃!女方则称其虚构大老板身份......

27岁男子和女主播订婚后,才知道对方39岁,有仨娃!女方则称其虚构大老板身份......

大风新闻
2026-01-15 07:59:26
山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

新浪财经
2026-01-15 00:06:03
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
美国已正式开始出售委内瑞拉石油

美国已正式开始出售委内瑞拉石油

新京报
2026-01-15 11:24:24
特朗普对镜头竖“中指”,美国总统的首次,原因是什么?

特朗普对镜头竖“中指”,美国总统的首次,原因是什么?

世家宝
2026-01-14 23:18:01
闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

阿纂看事
2026-01-14 16:41:41
重磅爆料!闫学晶被举报偷税上亿,证据已提交税务局,这次真完了

重磅爆料!闫学晶被举报偷税上亿,证据已提交税务局,这次真完了

哄动一时啊
2026-01-14 19:39:52
俄乌战争,击碎了多少“神一样的存在”

俄乌战争,击碎了多少“神一样的存在”

望岳
2026-01-12 20:36:38
“棋圣”聂卫平病逝,其女聂云菲发文:明明已经恢复那么好了,为什么上天这样无情,为何人生如此无常,子欲养而亲不待

“棋圣”聂卫平病逝,其女聂云菲发文:明明已经恢复那么好了,为什么上天这样无情,为何人生如此无常,子欲养而亲不待

极目新闻
2026-01-15 08:22:24
棋圣聂卫平病逝

棋圣聂卫平病逝

上观新闻
2026-01-15 08:10:09
2026-01-15 12:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12118文章数 142536关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

美国开售委内瑞拉石油 首笔交易价值5亿美元

头条要闻

美国开售委内瑞拉石油 首笔交易价值5亿美元

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
健康
本地
艺术
亲子

最时髦的单品,难道不是背肌吗?

血常规3项异常,是身体警报!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

艺术要闻

历代书家集字春联大集合

亲子要闻

2026热门液体钙,液体钙哪个牌子效果好?D3+K2引钙入骨更科学

无障碍浏览 进入关怀版