网易首页 > 网易号 > 正文 申请入驻

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

0
分享至



如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

清华团队用两个 1.5B 模型给出了答案:不仅可行,还特别高效。

  • 核心发现: 单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力
  • 意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"
  • 关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多





  • 技术博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 开源模型:https://huggingface.co/collections/hbx/justrl
  • 评测脚本:https://github.com/thunlp/JustRL

背景:RL 训练小模型的 "技术军备竞赛"

2025 年初,DeepSeek-R1 开源后,如何用 RL 训练 1.5B 级别的推理模型成为了热门研究方向。短短几个月内,这个领域经历了快速的技术演进:早期的工作尝试超参数调优和长度控制;随后出现了多阶段渐进训练,每个阶段调整数据难度和 RL 超参数;也有方法引入了课程学习,用部分解作为提示精心设计难度梯度;最激进的做法直接将 rollout 数量提升到 512 次,用算力进行暴力探索。



近期工作用到的技术对比

这些方法都取得了不错的效果,性能在不断刷新。 动态采样、KL 重置、自适应惩罚、长度控制…… 各种稳定技术和优化 trick 被逐一引入。每个新工作都在前人基础上增加新的模块和机制,整个训练 pipeline 变得越来越复杂。

然而,这种复杂度的增长也带来了困惑:这些技术真的都是必要的吗?当不同工作组合使用不同的技术子集时,我们很难分辨哪些是解决根本问题的,哪些只是在修补其他设计选择带来的副作用。更重要的是,如果 baseline 本身就不稳定,那么为了稳定它而加入的技术,可能只是在治标而非治本。

清华团队带着一个朴素的想法开始了这项工作:"如果我们用最基础的配方,但训练得足够充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就这样"。

方法:极简到极致的训练配方

JustRL 的设计哲学是 "减到不能再减"。研究者刻意避免了近期工作中常见的复杂技术,只保留了最基础的组件。

训练配方简单到令人意外: 算法使用标准的 GRPO,没有任何魔改;训练只有一个阶段,从头到尾连续进行;超参数完全固定,不做任何动态调整;数据来自常规的数学问题集,不进行离线难度筛选、不做数据增强、不使用 dynamic sampling。

更关键的是,同一套超参数在两个完全不同的起点上都有效。 第一个实验使用 DeepSeek-R1-Distill-Qwen-1.5B 作为基座,这是一个相对较弱的起点(AIME 2024 准确率 29%);第二个实验使用 OpenMath-Nemotron-1.5B,这已经是一个相当强的基座(AIME 2024 准确率 61%)。研究者没有针对不同模型调整任何参数,在 9 个数学推理基准(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面评测显示,JustRL 达到了 1.5B 模型的最高水平。



一个关键问题:会不会是用了更多算力?正好相反,我们用了更少。

从弱基座起步的 JustRL-DeepSeek-1.5B,最终在 9 项基准上平均达到 54.87%,超越了采用 9 阶段训练的 ProRL-V2(53.08%)。更值得注意的是计算效率:JustRL 使用的总 token 预算约为 1.4E+11,仅为 ProRL-V2 的一半,为 BroRL 的五分之一。在算力 - 性能的权衡上,JustRL 达到了一个新的平衡点。

从强基座起步的 JustRL-Nemotron-1.5B 表现更加出色,平均准确率达到 64.32%,略微超过使用课程学习的 QuestA(63.81%)。关键的差异在于,QuestA 需要完整的推理轨迹来构建 hint,还要分阶段调整提示难度;而 JustRL只需要标准的问题与标答,不需要额外的数据工程,总 token 预算也相对较小。

整个训练在 32 张 A800-80GB GPU 上进行,每个模型训练约 15 天。相比一些需要多阶段训练、频繁调参的方法,JustRL 的工程复杂度和计算开销都显著更低。这些结果的意义不仅在于数字本身,更在于它们揭示的一个可能性:很多时候,我们可能低估了简单方法在充分 scale 下的潜力。

意外发现:4000 步训练,异常平稳

也许比最终性能更令人惊讶的是训练过程本身。研究者详细记录了 JustRL-DeepSeek-1.5B 整个 4000 步 RL 过程中的关键动态指标:策略熵、平均奖励、响应长度。

策略熵始终在 1.2-1.4 范围内健康震荡,没有出现向上漂移(探索崩塌)或向下崩溃(过早收敛);平均奖励从 - 0.6 单调上升到 +0.4,虽然有噪声但趋势清晰,没有长时间的 plateau 或突然的下跌;响应长度从初始的 8000 tokens 自然压缩到 4000-5000 tokens,并稳定在这个范围,这一切都是在没有使用 overlong penalty 的情况下发生的,仅仅设置了最大 16k 的上下文长度。



JustRL-DeepSeek-1.5B 的训练 dynamic

这与很多现有工作报告的训练困难形成鲜明对比。

  • ProRL:"我们观察到熵崩溃和训练不稳定性…"
  • BroRL:"训练到瓶颈只能加 rollout 加大探索…"
  • QuestA:"需要课程学习避免熵崩塌(简单题)或者减缓学习效率(难任务)…"

而在 JustRL 的训练中,这些问题都没有出现。这给了我们一个有趣的观察:也许在某些配置下,当 baseline 足够简单、训练规模足够充分时,一些在复杂系统中出现的稳定性问题可能就不容易发生。

一个有趣的插曲:加 "优化" 反而更差

训练过程中,团队尝试了两个 "按常理应该有帮助" 的修改。这两个实验的结果颇具启发性。

第一个实验是加入显式的长度惩罚。 动机很直接:不少工作证明长度惩罚有效,那么添加一个惩罚项应该能让模型输出更简洁,提高训练效率。结果却令人意外:性能从 55% 下降到 50%。深入分析发现,显式惩罚导致了熵崩塌,熵值从 1.2-1.4 降到 0.4-0.6 ,探索空间被过早压缩。模型还没来得及充分探索有效的解题策略,就被迫收敛到更短的响应上。

第二个实验是换用更宽松的验证器。 逻辑同样合理:减少假阴性(正确答案被误判为错误)应该能提供更清晰的学习信号。但性能继续下滑到 45%。可能的原因包括:更宽松的验证器虽然减少了误判,但也降低了学习信号的细粒度 ——"几乎正确" 和 "完全正确" 不再有明显区分;另一种可能是,严格的格式要求实际上在迫使模型发展更鲁棒的内部推理,而宽松的验证器消除了这种压力。



两组 ablation 效果

这说明什么?一方面,ablation 在接近 2ksteps 的尺度上才开始分道扬镳,意味着现有的 RL tricks ablation 可能在小规模上(几十 / 几百步)得到的结论不一定适合于大规模 scaling,要验证 tricks 的作用可能长期才能看出区别;另一方面,不是说这些技术本身不好(它们在其他工作中确实有效),而是:

  • 技术的价值高度依赖于baseline 的特性
  • 在一个稳定的 baseline 上,某些 "优化" 可能适得其反
  • 不是所有看起来合理的东西都该加

这个工作想说什么?

不是要证明 "简单永远最好"

  • 不是说: "复杂方法都没用"
  • 而是说: "我们可能低估了简单方法在充分 scale 下的潜力"
  • 不是说: "大家都做错了"
  • 而是说: "建立清晰的简单 baseline,能更准确地评估复杂技术的价值"
  • 不是说: "永远别用复杂技术"
  • 而是说: "先验证简单方法的极限在哪,再决定是否需要复杂度"

写在最后:关于 "够用" 的哲学

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要证明 "简单就是答案"。它想提醒的是:在不断追求技术创新的同时,别忘了回头看看 —— 最朴素的方法,在足够的努力下,能做到什么程度。

也许在 RL 训练小模型这个领域,我们一直在做加法:加阶段、加调度、加采样策略、加稳定技巧。也许现在是时候试试奥卡姆剃刀的做法:减到不能再减,看看还剩什么。JustRL 的发现是:剩下的,可能已经够用了。

如果你正在做 RL,不妨试试:先把简单配方训练充分,看看它能带你走多远。

也许你会发现:够用了。

也许你会发现:还不够,但现在你知道差在哪了。

无论哪种,都是有价值的收获。"如无必要,勿增实体"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙杨被取消成绩

孙杨被取消成绩

新京报政事儿
2025-11-12 21:28:58
陈梦:能进半决赛已经很棒了,现在年轻人速度很快我差点跟不上

陈梦:能进半决赛已经很棒了,现在年轻人速度很快我差点跟不上

懂球帝
2025-11-13 14:32:16
成都通报“和平小屋”经营问题调查情况

成都通报“和平小屋”经营问题调查情况

界面新闻
2025-11-13 17:44:01
小孩试戴金镯子10秒,取下后营业员称变形要求赔偿1000元,民警到场后质疑商家行为

小孩试戴金镯子10秒,取下后营业员称变形要求赔偿1000元,民警到场后质疑商家行为

现代快报
2025-11-13 17:41:01
重大利好出现,A股终于如期大涨!

重大利好出现,A股终于如期大涨!

君临财富
2025-11-13 16:12:46
湖南省郴州市委原常委、统战部原部长黄峥嵘被决定逮捕,曾被通报跑官买官、私德不修

湖南省郴州市委原常委、统战部原部长黄峥嵘被决定逮捕,曾被通报跑官买官、私德不修

鲁中晨报
2025-11-13 16:19:01
多一个孩子多一份希望——天门市致全体市民鼓励生育的倡议书

多一个孩子多一份希望——天门市致全体市民鼓励生育的倡议书

恪守原则和底线
2025-11-12 20:04:43
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
魏兴贵已任重庆市武隆区委副书记,此前在北碚区工作

魏兴贵已任重庆市武隆区委副书记,此前在北碚区工作

澎湃新闻
2025-11-13 17:50:27
上海一男租客入室抢劫独居女房东获刑13年,房东:他带大行李箱,威胁勒死我后装进去

上海一男租客入室抢劫独居女房东获刑13年,房东:他带大行李箱,威胁勒死我后装进去

潇湘晨报
2025-11-13 15:12:18
全运会乒乓:女单4强名单出炉,国乒2大主力出局,陈梦超级逆转

全运会乒乓:女单4强名单出炉,国乒2大主力出局,陈梦超级逆转

知轩体育
2025-11-13 14:56:52
零食店诬陷3岁小孩偷6000元零食后续:好想来紧急介入,老板回应

零食店诬陷3岁小孩偷6000元零食后续:好想来紧急介入,老板回应

奇思妙想草叶君
2025-11-12 19:13:03
北京人上个月去了趟广州,说实话,广州人的素质让我眼界大开!

北京人上个月去了趟广州,说实话,广州人的素质让我眼界大开!

糖逗在娱乐
2025-11-13 13:27:39
狗咬人被摔死,狗主人上门理论被反杀

狗咬人被摔死,狗主人上门理论被反杀

中国新闻周刊
2025-11-13 12:44:20
正在被饿死的县医院们

正在被饿死的县医院们

医脉圈
2025-11-12 12:14:28
深圳电商炸出9500万补税罚单!收入1.6亿查出,进项票严重不足…

深圳电商炸出9500万补税罚单!收入1.6亿查出,进项票严重不足…

火山诗话
2025-11-13 13:22:33
刚刚!阿里,突发!直线爆拉!

刚刚!阿里,突发!直线爆拉!

中国基金报
2025-11-13 16:04:05
罕见!央媒对高市早苗火力全开,骂得相当难听,奉劝她别满嘴喷粪

罕见!央媒对高市早苗火力全开,骂得相当难听,奉劝她别满嘴喷粪

时时有聊
2025-11-12 20:45:52
为啥美国马桶有缺口,我国的马桶没有,缺口设计有啥特殊用意吗?

为啥美国马桶有缺口,我国的马桶没有,缺口设计有啥特殊用意吗?

诗意世界
2025-11-12 20:20:39
疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

澳洲红领巾
2025-11-11 11:25:36
2025-11-13 18:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11710文章数 142505关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

房产
游戏
亲子
数码
公开课

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

神作《辐射:新维加斯》重制有戏?权威编辑:在路上

亲子要闻

This 28-day-old baby raises his tiny hand like a l...

数码要闻

1 块 SSD + 1 块 HDD:OWC 推出雷电 5 存储扩展坞 StudioStack

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版