网易首页 > 网易号 > 正文 申请入驻

DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密

0
分享至

来源:AI寒武纪

今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!

这篇论文题目就非常硬核:《Understanding R1-Zero-Like Training: A Critical Perspective》(理解类 R1-Zero 训练:批判性视角)。他们没有盲目跟风,而是选择了 “先理解,再改进” 的硬核路线,深入剖析了 R1-Zero 这类训练方法的两大基石:基座模型强化学习 (RL)

重磅发现一:基座模型才是真大佬?“顿悟时刻” 比你想的早!

文章一上来就抛出震撼弹:DeepSeek-V3-Base 竟然在 RL 微调之前就展现出了 “Aha moment”(顿悟时刻)!这直接颠覆了我们之前的认知,难道 RL 只是锦上添花?

更让人惊讶的是,他们发现Qwen2.5 基座模型,这个 R1-Zero-like 训练的 “网红选手”, 即使不用 Prompt 模板,推理能力也强到离谱!平均 benchmark 分数直接飙升 ~60%!这简直不像基座模型,更像是用 QA 数据集 SFT 过的模型!

这些现象都在暗示一个扎心的真相:基座模型的预训练阶段可能已经注入了太多 “偏见”。比如,自我反思能力、数学解题技巧,可能在 RL 奖励信号强化之前就早已埋下种子。

等等,那模型回复越来越长,真的是 RL 的功劳吗?这里面可能另有隐情…

重磅发现二:RL 环节暗藏 “长度偏见”?GRPO 原来没那么完美!

研究团队深入扒了 RL 环节,尤其是 GRPO (Generalized Reward Policy Optimization) 算法,结果发现… GRPO 竟然是有偏见的!

具体来说,GRPO 的 长度归一化 (length normalization)会偏爱短的正确答案,却对 长的错误答案更宽容!这就导致了 “长度偏见” (length bias)。

更可怕的是,GRPO 的标准差归一化 (std normalization)还会偏爱太简单或太难的问题,而忽略难度适中的题目!这又带来了“难度偏见”** (difficulty bias)

PPO 也躺枪?开源实现竟然也引入了 “长度偏见”!

更让人意想不到的是,即使理论上PPO (Proximal Policy Optimization)算法是无偏的,但几乎所有开源实现都通过计算 masked_mean 引入了 “长度偏见”!这简直防不胜防!

划重点:“长度偏见” 可能就是模型回复越来越长的幕后黑手之一!

利器:Dr. GRPO 横空出世!两行代码解决 “偏见” 问题!

为了解决 GRPO 的 “偏见” 问题,研究团队祭出大招 —— Dr. GRPO (Doctor GRPO)!只需两行代码的魔改:移除长度归一化和标准差归一化 (图中红色部分)!

Dr. GRPO 不仅无偏,还能提升 Token 效率!因为它能有效阻止 GRPO 产生越来越长的错误答案,避免浪费计算资源。

R1-Zero 训练极简配方大公开!7B 模型 AIME 怒刷 SOTA!

基于以上分析,研究团队给出了一个极简的 R1-Zero 训练配方,没有花里胡哨的技巧:

  • 算法:Dr. GRPO (无偏优化器)

  • 数据:MATH level 3-5 难度问题

  • 模板:Qwen-Math

  • 算力:27 小时 * 8 * A100

结果震撼:7B 模型在 Zero-RL setting 下,AIME 2024 怒刷 43.3 分 SOTA!

这还不是全部!这篇论文和代码库里还有更多有趣发现,例如:

a.基础代数 (+ − × ÷) 问题上的 RL 训练,竟然能提升奥赛级别的推理能力!

b.Llama 模型也能 “顿悟”!

强烈建议大家去围观论文和代码

论文地址:

https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

代码地址:

https://github.com/sail-sg/understand-r1-zero

总结一下:这项研究不仅揭示了 R1-Zero-like 训练的深层机制,更指出了现有方法的潜在问题,并提出了有效的改进方案。对于想要深入理解和实践 R1-Zero 训练的朋友们来说,绝对是不可多得的宝藏资料!赶紧学起来吧!

作者信息:Zichen Liu, PhD student, RL believer @SeaAIL @NUSingapore

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大陆“向阳红22”科研船在台湾东部水域遭台湾海巡驱离,国台办:如再借此滋事挑衅,升高两岸对立对抗,必遭挫败

大陆“向阳红22”科研船在台湾东部水域遭台湾海巡驱离,国台办:如再借此滋事挑衅,升高两岸对立对抗,必遭挫败

政知新媒体
2026-06-24 13:57:50
湖南靶场手枪走火死亡详情披露!与北京某射击场死亡事故离奇相似

湖南靶场手枪走火死亡详情披露!与北京某射击场死亡事故离奇相似

军武次位面
2026-06-24 19:49:01
价格战之下,千亿补贴也救不了的车市真相

价格战之下,千亿补贴也救不了的车市真相

大佬灼见
2026-06-22 11:18:11
中纪委打虎:卞志刚落马!

中纪委打虎:卞志刚落马!

上观新闻
2026-06-24 11:10:41
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
早上六点妻子从男闺蜜住处归来,我笑着问她:昨晚缠绵得开心吗?

早上六点妻子从男闺蜜住处归来,我笑着问她:昨晚缠绵得开心吗?

千秋文化
2026-06-23 20:10:38
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
广东公办二本院校排名及录取分数线:附最低分大学(2026参考)

广东公办二本院校排名及录取分数线:附最低分大学(2026参考)

户外阿毽
2026-06-24 20:29:17
奇才状元签选迪班萨:队史第7位状元 联手浓眉特雷杨组三巨头

奇才状元签选迪班萨:队史第7位状元 联手浓眉特雷杨组三巨头

醉卧浮生
2026-06-24 08:31:47
换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

大白聊IT
2026-06-23 18:14:46
40度高温,歪果仁真不装空调?法国:不是不想装,是装了等于给自己找麻烦!

40度高温,歪果仁真不装空调?法国:不是不想装,是装了等于给自己找麻烦!

新欧洲
2026-06-23 21:51:22
一款包装写了大量日文的眼药水,实际产自江西,记者一查:该公司0人参保

一款包装写了大量日文的眼药水,实际产自江西,记者一查:该公司0人参保

南方都市报
2026-06-23 14:45:16
性感女孩:那不是一种打扮,是一种无需解释的自在

性感女孩:那不是一种打扮,是一种无需解释的自在

疾跑的小蜗牛
2026-06-24 21:24:04
快扔掉,戴一天,辐射量相当于拍117次胸片

快扔掉,戴一天,辐射量相当于拍117次胸片

北青网-北京青年报
2026-06-22 11:00:34
C罗:我不关心梅西进球;踢了24年球我早已能够承受批评

C罗:我不关心梅西进球;踢了24年球我早已能够承受批评

懂球帝
2026-06-24 03:53:08
台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

至死不渝的爱情
2026-06-24 15:38:55
SpaceX 跌破开盘价,美股迎来自己的中石油

SpaceX 跌破开盘价,美股迎来自己的中石油

鸿雁复北翔热评
2026-06-24 09:49:11
终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

魔都姐姐杂谈
2026-06-24 10:01:02
中国男篮被直接无视?日本连热身赛都不打了:郭士强这下压力大了

中国男篮被直接无视?日本连热身赛都不打了:郭士强这下压力大了

篮球快餐车
2026-06-24 03:32:18
郑钦文1-2陶森无缘第2轮!二三盘首局均被破发,双误次数比ACE多

郑钦文1-2陶森无缘第2轮!二三盘首局均被破发,双误次数比ACE多

篮球资讯达人
2026-06-24 21:12:31
2026-06-24 22:20:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4839文章数 37476关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

"副院长出轨眼科主任"新进展:女方离职 男方恢复出诊

头条要闻

"副院长出轨眼科主任"新进展:女方离职 男方恢复出诊

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

艺术
健康
旅游
手机
军事航空

艺术要闻

第三届“ART南京”当代艺术博览会圆满收官

神经内科专家破解中风十大谣言

旅游要闻

山为骨,水为血,天地为窖,时光为曲,酿一杯迎驾山河

手机要闻

多少钱合适?vivo X Fold6完整参数提前看:天玑 9500+7000mAh 大电池

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版