网易首页 > 网易号 > 正文 申请入驻

200行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文是复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队的最新研究成果,他们用简洁的代码高效复现了 R1-zero 的自发反思能力。

在关于 DeepSeek 的文章中,我们会多次听到「Aha Moment」这个词。它指的是模型在训练过程中经历的一种顿悟时刻,表现为模型突然展现出类似人类的自我反思和策略调整能力。

DeepSeek 论文中提到的 Aha Moment。

DeepSeek-R1-zero 经过强化学习实现了大模型顿悟时刻的自发涌现,引发了大量对其方案的解读与复现工作。

其中,基于 GRPO( Group Relative Policy Optimization)强化学习方案尤其受到关注。业界先后开源了多个基于 GRPO 算法的 R1-zero 复现项目。然而,这些复现项目严重依赖一些复杂代码框架,有着较高的代码实现复杂度,对部署环境存在较高依赖,资源利用率不高,代码可读性与可维护性仍存在改进空间。

对此,复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队基于 GRPO 算法思想高效复现了 R1-zero 自发反思能力。目前,该项目(Simple-GRPO)的第一版代码实现已经开源并提交 Github。

代码地址:https://github.com/lsdefine/simple_GRPO。

该项目相对于现有开源的 R1-zero 复现具有以下优势:

代码简洁,依赖简单,只需要 200 多行

资源消耗低,通过模型解耦与分离进一步降低算力需求,该项目支持在一张 A800 (80G) 加一张 3090 (24G) 完成 7B 模型的训练。根据 AutoDL 平台计费标准,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以项目作者经验,模型在这样的算力平台下,训练 1h 模型就能出现 aha moment,折合人民币 7.3 元,单次实验成本压缩至奶茶价格区间。

项目介绍

本项目代码简单,GRPO 算法实现仅有 200 多行代码,且仅依赖基础的深度学习代码库,如 deepspeed 和 torch,而无需 ray 等复杂框架。具体实现细节如下:

① 参考模型分离

在实现过程中,参考模型(reference model)被解耦,允许其在不同的 GPU 上运行(甚至可以运行在 3090 显卡上)。这避免了将参考模型和训练模型放在同一个 GPU 上,防止 torch 的多进程机制创建多个副本,避免显存浪费,并使得在 A800(80G)上训练 7B 模型成为可能。

② 核心损失计算

损失计算公式基于 Hugging Face 的 trl 实现。

③ 训练环境与过程

项目在 1 张 A800(80G)显卡上用 Zero-Stage 2 做优化,使用另一张 A800(80G)显卡进行参考模型的推理,参考模型分离使得 GRPO 的训练更加高效。

在以上训练环境中,Qwen2.5-3B 训练 60 步需要 12 分 34 秒,Qwen2.5-7B 训练 60 步需要 16 分 40 秒。其中在前 30 步优化中,Qwen2.5-7B 和 Qwen2.5-3B 的输出内容中,均出现了「顿悟时刻」现象。示例如下:

  • Qwen2.5-3B(步骤 20)

其中文翻译如下:

... 要找出卡姆登画的鸡蛋比阿诺德多多少,我们从卡姆登画的鸡蛋数量中减去阿诺德画的鸡蛋数量。所以,21-28 = -7。然而,这个结果在问题的背景下没有意义,因为卡姆登画的鸡蛋不可能比阿诺德少。让我们重新考虑最初的解决方案步骤:我们应该验证关于卡姆登和莎拉的鸡蛋之间关系的初始假设是否正确 。...

-7

  • Qwen2.5-7B(步骤 20)

其中文翻译如下:

... 因此,Joanne 从普通树上摘了 350 个苹果。但是,这似乎不对,因为总数应该是 500 个,而我们已经计算了 150 个,只剩下 350 个普通树上的苹果,这与总数相矛盾。让我们重新评估一下。...

350

实验结果

使用 Qwen2.5-3B 和 Qwen2.5-7B 作为基础模型,测试了模型训练过程中正确率(左图)和格式遵循能力(右图)的变化情况,比较符合预期。

  • Qwen2.5-3B:

在 GSM8K 和 Math 混合数据集进行训练,从上图可以看出,Qwen2.5-3B 的准确率在经历 5 步的优化后能稳定在 60% 以上,最高能达到 70% 左右;格式遵循能力在 30 步以后接近 100%.

  • Qwen2.5-7B

在 GSM8K 数据集上进行训练,从上图可以看出,Qwen2.5-7B 的无论是准确率还是格式遵循能力都能在三十步以内快速收敛,准确率(左图)始终保持在 90% 以上,格式遵循能力(右图)到达 100%.

改进方向

近期本项目将进一步推出以下方向的优化版本,敬请关注。

组内答案同质性问题

根据 GRPO 算法中的分组策略,当组内答案全部正确或全为错误时,奖励函数无法有效分配差异化奖励,强化学习将缺乏对比性的训练信号,导致模型难以收敛。后续将在训练过程中实时监控答案分布,对同质化的答案进行重新采样和分组,以提供有效的对比信号。

长思维链(CoT)显存占用问题

当模型生成较长的思维链(CoT)时,由于文本序列长度较长,显存占用会显著增加。对此,后续考虑拆分组别,减小批次大小,或对长序列分阶段处理,以减小训练过程中的 GPU 内存开销,提升训练效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
刘亦菲安妮海瑟薇站边角,金智媛抢C位,宝格丽合照藏了什么规则

刘亦菲安妮海瑟薇站边角,金智媛抢C位,宝格丽合照藏了什么规则

手工制作阿歼
2026-03-26 10:34:27
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
A股三大指数均跌逾1%,全市场下跌个股超4500只

A股三大指数均跌逾1%,全市场下跌个股超4500只

界面新闻
2026-03-26 13:24:15
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
既然只是“劝架”,为什么要砸碎人家的镜子?

既然只是“劝架”,为什么要砸碎人家的镜子?

胖胖说他不胖
2026-03-26 14:05:04
周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

乐天闲聊
2026-03-26 10:48:17
伊朗军方公布第26天作战行动细节 打击多处美以目标

伊朗军方公布第26天作战行动细节 打击多处美以目标

极目新闻
2026-03-26 14:33:54
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
厉害,郑州大学第一附属医院一次派70名人员进驻这家三甲医院

厉害,郑州大学第一附属医院一次派70名人员进驻这家三甲医院

周哥一影视
2026-03-26 13:34:56
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

映射生活的身影
2026-03-24 18:27:44
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

对越反击战期间,越南女兵的诡计有多离谱?敢将自己脱得赤条条的

抽象派大师
2026-03-26 10:58:00
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
2026-03-26 17:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
时尚
家居
手机
本地

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

家居要闻

傍海而居 静观蝴蝶海

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版