网易首页 > 网易号 > 正文 申请入驻

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

0
分享至



如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

清华团队用两个 1.5B 模型给出了答案:不仅可行,还特别高效。

  • 核心发现: 单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力
  • 意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"
  • 关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多





  • 技术博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 开源模型:https://huggingface.co/collections/hbx/justrl
  • 评测脚本:https://github.com/thunlp/JustRL

背景:RL 训练小模型的 "技术军备竞赛"

2025 年初,DeepSeek-R1 开源后,如何用 RL 训练 1.5B 级别的推理模型成为了热门研究方向。短短几个月内,这个领域经历了快速的技术演进:早期的工作尝试超参数调优和长度控制;随后出现了多阶段渐进训练,每个阶段调整数据难度和 RL 超参数;也有方法引入了课程学习,用部分解作为提示精心设计难度梯度;最激进的做法直接将 rollout 数量提升到 512 次,用算力进行暴力探索。



近期工作用到的技术对比

这些方法都取得了不错的效果,性能在不断刷新。 动态采样、KL 重置、自适应惩罚、长度控制…… 各种稳定技术和优化 trick 被逐一引入。每个新工作都在前人基础上增加新的模块和机制,整个训练 pipeline 变得越来越复杂。

然而,这种复杂度的增长也带来了困惑:这些技术真的都是必要的吗?当不同工作组合使用不同的技术子集时,我们很难分辨哪些是解决根本问题的,哪些只是在修补其他设计选择带来的副作用。更重要的是,如果 baseline 本身就不稳定,那么为了稳定它而加入的技术,可能只是在治标而非治本。

清华团队带着一个朴素的想法开始了这项工作:"如果我们用最基础的配方,但训练得足够充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就这样"。

方法:极简到极致的训练配方

JustRL 的设计哲学是 "减到不能再减"。研究者刻意避免了近期工作中常见的复杂技术,只保留了最基础的组件。

训练配方简单到令人意外: 算法使用标准的 GRPO,没有任何魔改;训练只有一个阶段,从头到尾连续进行;超参数完全固定,不做任何动态调整;数据来自常规的数学问题集,不进行离线难度筛选、不做数据增强、不使用 dynamic sampling。

更关键的是,同一套超参数在两个完全不同的起点上都有效。 第一个实验使用 DeepSeek-R1-Distill-Qwen-1.5B 作为基座,这是一个相对较弱的起点(AIME 2024 准确率 29%);第二个实验使用 OpenMath-Nemotron-1.5B,这已经是一个相当强的基座(AIME 2024 准确率 61%)。研究者没有针对不同模型调整任何参数,在 9 个数学推理基准(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面评测显示,JustRL 达到了 1.5B 模型的最高水平。



一个关键问题:会不会是用了更多算力?正好相反,我们用了更少。

从弱基座起步的 JustRL-DeepSeek-1.5B,最终在 9 项基准上平均达到 54.87%,超越了采用 9 阶段训练的 ProRL-V2(53.08%)。更值得注意的是计算效率:JustRL 使用的总 token 预算约为 1.4E+11,仅为 ProRL-V2 的一半,为 BroRL 的五分之一。在算力 - 性能的权衡上,JustRL 达到了一个新的平衡点。

从强基座起步的 JustRL-Nemotron-1.5B 表现更加出色,平均准确率达到 64.32%,略微超过使用课程学习的 QuestA(63.81%)。关键的差异在于,QuestA 需要完整的推理轨迹来构建 hint,还要分阶段调整提示难度;而 JustRL只需要标准的问题与标答,不需要额外的数据工程,总 token 预算也相对较小。

整个训练在 32 张 A800-80GB GPU 上进行,每个模型训练约 15 天。相比一些需要多阶段训练、频繁调参的方法,JustRL 的工程复杂度和计算开销都显著更低。这些结果的意义不仅在于数字本身,更在于它们揭示的一个可能性:很多时候,我们可能低估了简单方法在充分 scale 下的潜力。

意外发现:4000 步训练,异常平稳

也许比最终性能更令人惊讶的是训练过程本身。研究者详细记录了 JustRL-DeepSeek-1.5B 整个 4000 步 RL 过程中的关键动态指标:策略熵、平均奖励、响应长度。

策略熵始终在 1.2-1.4 范围内健康震荡,没有出现向上漂移(探索崩塌)或向下崩溃(过早收敛);平均奖励从 - 0.6 单调上升到 +0.4,虽然有噪声但趋势清晰,没有长时间的 plateau 或突然的下跌;响应长度从初始的 8000 tokens 自然压缩到 4000-5000 tokens,并稳定在这个范围,这一切都是在没有使用 overlong penalty 的情况下发生的,仅仅设置了最大 16k 的上下文长度。



JustRL-DeepSeek-1.5B 的训练 dynamic

这与很多现有工作报告的训练困难形成鲜明对比。

  • ProRL:"我们观察到熵崩溃和训练不稳定性…"
  • BroRL:"训练到瓶颈只能加 rollout 加大探索…"
  • QuestA:"需要课程学习避免熵崩塌(简单题)或者减缓学习效率(难任务)…"

而在 JustRL 的训练中,这些问题都没有出现。这给了我们一个有趣的观察:也许在某些配置下,当 baseline 足够简单、训练规模足够充分时,一些在复杂系统中出现的稳定性问题可能就不容易发生。

一个有趣的插曲:加 "优化" 反而更差

训练过程中,团队尝试了两个 "按常理应该有帮助" 的修改。这两个实验的结果颇具启发性。

第一个实验是加入显式的长度惩罚。 动机很直接:不少工作证明长度惩罚有效,那么添加一个惩罚项应该能让模型输出更简洁,提高训练效率。结果却令人意外:性能从 55% 下降到 50%。深入分析发现,显式惩罚导致了熵崩塌,熵值从 1.2-1.4 降到 0.4-0.6 ,探索空间被过早压缩。模型还没来得及充分探索有效的解题策略,就被迫收敛到更短的响应上。

第二个实验是换用更宽松的验证器。 逻辑同样合理:减少假阴性(正确答案被误判为错误)应该能提供更清晰的学习信号。但性能继续下滑到 45%。可能的原因包括:更宽松的验证器虽然减少了误判,但也降低了学习信号的细粒度 ——"几乎正确" 和 "完全正确" 不再有明显区分;另一种可能是,严格的格式要求实际上在迫使模型发展更鲁棒的内部推理,而宽松的验证器消除了这种压力。



两组 ablation 效果

这说明什么?一方面,ablation 在接近 2ksteps 的尺度上才开始分道扬镳,意味着现有的 RL tricks ablation 可能在小规模上(几十 / 几百步)得到的结论不一定适合于大规模 scaling,要验证 tricks 的作用可能长期才能看出区别;另一方面,不是说这些技术本身不好(它们在其他工作中确实有效),而是:

  • 技术的价值高度依赖于baseline 的特性
  • 在一个稳定的 baseline 上,某些 "优化" 可能适得其反
  • 不是所有看起来合理的东西都该加

这个工作想说什么?

不是要证明 "简单永远最好"

  • 不是说: "复杂方法都没用"
  • 而是说: "我们可能低估了简单方法在充分 scale 下的潜力"
  • 不是说: "大家都做错了"
  • 而是说: "建立清晰的简单 baseline,能更准确地评估复杂技术的价值"
  • 不是说: "永远别用复杂技术"
  • 而是说: "先验证简单方法的极限在哪,再决定是否需要复杂度"

写在最后:关于 "够用" 的哲学

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要证明 "简单就是答案"。它想提醒的是:在不断追求技术创新的同时,别忘了回头看看 —— 最朴素的方法,在足够的努力下,能做到什么程度。

也许在 RL 训练小模型这个领域,我们一直在做加法:加阶段、加调度、加采样策略、加稳定技巧。也许现在是时候试试奥卡姆剃刀的做法:减到不能再减,看看还剩什么。JustRL 的发现是:剩下的,可能已经够用了。

如果你正在做 RL,不妨试试:先把简单配方训练充分,看看它能带你走多远。

也许你会发现:够用了。

也许你会发现:还不够,但现在你知道差在哪了。

无论哪种,都是有价值的收获。"如无必要,勿增实体"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现货白银大幅跳水,跌幅扩大至7%

现货白银大幅跳水,跌幅扩大至7%

每日经济新闻
2026-01-15 09:43:56
阿尔茨海默病者逐渐增多,医生提醒:50岁后,赶紧改掉5个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:50岁后,赶紧改掉5个坏习惯

今日养生之道
2026-01-15 07:37:37
为访华铺路?特朗普撤回对华禁令,李显龙:中美的紧张局势将持续

为访华铺路?特朗普撤回对华禁令,李显龙:中美的紧张局势将持续

小正说娱乐
2026-01-15 08:41:11
杀年猪女孩“呆呆”涨粉200万,否认注册商标,村委称不敢想:第一次村里有这么大流量

杀年猪女孩“呆呆”涨粉200万,否认注册商标,村委称不敢想:第一次村里有这么大流量

大风新闻
2026-01-14 16:53:19
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
哈国突然断气,中国稀土受挫,美国 9 亿拿下七成矿权,地缘棋局再变

哈国突然断气,中国稀土受挫,美国 9 亿拿下七成矿权,地缘棋局再变

花小猫的美食日常
2026-01-12 05:45:02
阿隆索下家赔率:利物浦2.25居首,拜仁热刺二三,曼联第四

阿隆索下家赔率:利物浦2.25居首,拜仁热刺二三,曼联第四

懂球帝
2026-01-15 09:37:06
高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

科普100克克
2026-01-14 14:03:11
瑶瑶弟弟回应二审择期宣判:“金毛”爸还没放弃,为救儿四处活动

瑶瑶弟弟回应二审择期宣判:“金毛”爸还没放弃,为救儿四处活动

江山挥笔
2026-01-14 22:00:44
突然爆雷,人去楼空,有人投入700多万元!

突然爆雷,人去楼空,有人投入700多万元!

财经保探长
2025-12-26 11:24:43
深渊凝视:为什么从月球看地球,会让人感到一种彻骨的恐惧?

深渊凝视:为什么从月球看地球,会让人感到一种彻骨的恐惧?

观察宇宙
2026-01-14 17:34:31
林心如称霍建华婚后没下过厨:我没吃过他煮的东西

林心如称霍建华婚后没下过厨:我没吃过他煮的东西

红星新闻
2026-01-13 22:39:13
本市中小学将彻底告别校外供餐

本市中小学将彻底告别校外供餐

北青网-北京青年报
2026-01-15 02:42:20
1月15日人民币对美元中间价调升56个基点

1月15日人民币对美元中间价调升56个基点

证券时报
2026-01-15 09:47:18
多哈球星挑战赛15日赛程,梁靖崑林诗栋对阵张禹珍赵大成

多哈球星挑战赛15日赛程,梁靖崑林诗栋对阵张禹珍赵大成

乒乓球球
2026-01-15 06:23:09
以前骑车要先滑行一段再翻腿上车,为啥现在骑车不用这种方式了?

以前骑车要先滑行一段再翻腿上车,为啥现在骑车不用这种方式了?

向航说
2026-01-15 00:30:03
特雷杨奇才首秀遥遥无期!仍在努力恢复两处伤势 将在全明星赛后复查

特雷杨奇才首秀遥遥无期!仍在努力恢复两处伤势 将在全明星赛后复查

天光破云来
2026-01-15 09:24:49
52票赞成47票反对!美投票结果刚出来,特朗普下令出兵?俄英失声

52票赞成47票反对!美投票结果刚出来,特朗普下令出兵?俄英失声

环球报姐
2026-01-13 13:31:58
两性关系揭秘:女人真爱你,4个细节一目了然,男人别自欺欺人!

两性关系揭秘:女人真爱你,4个细节一目了然,男人别自欺欺人!

小鬼头体育
2026-01-15 08:37:35
周杰伦,球都没碰到!网友调侃:“原地罚站……”

周杰伦,球都没碰到!网友调侃:“原地罚站……”

极目新闻
2026-01-14 18:05:11
2026-01-15 10:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

牛弹琴:伊朗局势气氛已烘托到位 战火一触即发

头条要闻

牛弹琴:伊朗局势气氛已烘托到位 战火一触即发

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
亲子
数码
旅游
公开课

艺术要闻

历代书家集字春联大集合

亲子要闻

无痛脐灸巧解儿童抽动症

数码要闻

消息称苹果1月28日发布M5 Pro/Max芯片MacBook Pro

旅游要闻

浙江常山:石灰窑变面包窑 “石灰村”变旅游村

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版