网易首页 > 网易号 > 正文 申请入驻

这个开源项目要拆解DeepSeek-R1,「三步走」进度条到哪了?

0
分享至

一个想法能走多远,往往取决于有多少人愿意为它填坑。当DeepSeek-R1靠纯强化学习训练出的推理能力引爆讨论时,Hugging Face的工程师们没有停留在惊叹——他们直接开了一个叫Open R1的代码仓库,目标明确:把R1那条还没完全公开的训练流水线,用开源的方式从头搭出来。项目眼下还在施工中,但已经有一群人在往里面搬砖了。这事有意思的地方在于,它不是简单复现一个模型,而是要把DeepSeek论文里那些“说了但没完全说透”的技术细节,一块块补上。

整个计划被拆成了三步,照着DeepSeek-R1技术报告画的路线图走。第一步,从R1模型里蒸馏出高质量的推理数据,复现那些R1-Distill蒸馏版小模型。这一步相当于先拿到高性能的“教师模型”产出的思维链样本,用来训练学生模型。第二步,把DeepSeek训练R1-Zero那条纯强化学习流水线跑通,这大概率得自己动手攒一批数学、推理和代码方向的大规模新数据集。第三步是终局——证明能从基础模型开始,经过多阶段强化学习调优,一步步走到最终的高推理能力模型。


第一个里程碑已经在5月26日立住了。团队放出了一个叫Mixture-of-Thoughts的数据集,里面包含了从R1蒸馏出的35万条经过验证的推理轨迹,覆盖数学、编程和科学题。配套的OpenR1-Distill-7B模型训练方案也一并公开,实验跑出来的推理能力跟官方版的DeepSeek-R1-Distill-Qwen-7B持平。这意味着第一步已经完工,蒸馏复现这条路算是走通了。

更早的几次更新同样信息量密集。3月11号他们扔出了CodeForces-CoTs数据集,里面有1万道CodeForces竞赛编程题和从R1蒸馏出的10万条解题思路,还顺手发布了一个叫IOI24的新基准——题目全来自国际信息学奥赛,难度极高。用CodeForces-CoTs训练出来的7B参数Qwen模型,在IOI24上直接干掉了Claude 3.7 Sonnet,而32B版本甚至超越了R1原版。再往前到2月10号,基于NuminaMath新版本蒸馏出的22万条推理轨迹数据集OpenR1-Math-220k发布,拿它训出来的模型同样追平了DeepSeek蒸馏版的成绩。

工程实现上也有值得留意的地方。仓库的核心代码模块拆得很清爽:grpo.py负责在指定数据集上跑GRPO(群体相对策略优化)训练,sft.py处理监督微调,generate.py则用Distilabel框架从模型批量生成合成数据。外面包了一层Makefile,把每个步骤都封装成一条命令,想跑哪步直接敲。不过有个小坑得注意——所有依赖都绑在CUDA 12.4上,如果你跑着跑着报segmentation fault,先用nvcc --version查一下系统CUDA版本对不对。环境搭建推荐用uv,一条make install就能把开发库装全,之后就可以直接上手试模型了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全场完成四次扑救,曼联旧将科瓦日世界杯首秀表现亮眼

全场完成四次扑救,曼联旧将科瓦日世界杯首秀表现亮眼

懂球帝
2026-06-12 14:30:34
孤女遭亲舅舅烧书阻止参加高考?实为剧本卖惨蹭流量丨真探队

孤女遭亲舅舅烧书阻止参加高考?实为剧本卖惨蹭流量丨真探队

封面新闻
2026-06-12 12:54:21
伊朗外长:美国在谅解备忘录中承诺不发动战争

伊朗外长:美国在谅解备忘录中承诺不发动战争

澎湃新闻
2026-06-13 03:54:11
姆巴佩伊万卡十指紧扣热恋?放大照片我笑出了声

姆巴佩伊万卡十指紧扣热恋?放大照片我笑出了声

绿茵八卦君
2026-06-10 11:40:03
SpaceX 上市的 VC 大赢家们:浮盈数百亿美元,华人资本绕道进场

SpaceX 上市的 VC 大赢家们:浮盈数百亿美元,华人资本绕道进场

生活新鲜市
2026-06-12 18:50:40
WTT萨格勒布赛:单打8强已出其4!国乒连赢韩日,早田希娜被爆冷

WTT萨格勒布赛:单打8强已出其4!国乒连赢韩日,早田希娜被爆冷

全言作品
2026-06-12 19:19:04
取得开门红,韩媒:韩国主帅洪明甫得到了中国媒体的称赞

取得开门红,韩媒:韩国主帅洪明甫得到了中国媒体的称赞

懂球帝
2026-06-12 17:30:07
刚刚!国家发布重磅文件,比AI更猛的王炸产业来了

刚刚!国家发布重磅文件,比AI更猛的王炸产业来了

前瞻网
2026-06-12 14:41:55
14天的冷淡期已过!中国不再给机会,欺负海外中企的荷兰要遭殃

14天的冷淡期已过!中国不再给机会,欺负海外中企的荷兰要遭殃

他想要很多很多的梦
2026-06-12 05:32:19
美女总理拍半裸写真引众怒,身材苗条颜值惊艳,爱逛夜店跳热舞

美女总理拍半裸写真引众怒,身材苗条颜值惊艳,爱逛夜店跳热舞

闻识
2026-06-07 07:42:43
尘封14年绯闻真相大白!林书豪亲口实锤

尘封14年绯闻真相大白!林书豪亲口实锤

动物奇奇怪怪
2026-06-13 06:22:28
高考记忆:为何说邓小平删掉的这四个字价值万亿?

高考记忆:为何说邓小平删掉的这四个字价值万亿?

草根情感故事茶社
2026-06-10 16:51:28
关晓彤和男演员伸舌吻戏拍完五小时,鹿晗发破碎爱心

关晓彤和男演员伸舌吻戏拍完五小时,鹿晗发破碎爱心

乡野小珥
2026-06-11 14:06:46
浙江夫妻入住酒店,发现用过的成人用品!酒店:赔付约4000元;两人体检后酒店却变卦:其未提供相应索赔依据和票据

浙江夫妻入住酒店,发现用过的成人用品!酒店:赔付约4000元;两人体检后酒店却变卦:其未提供相应索赔依据和票据

洪观新闻
2026-06-11 17:00:25
WTT萨格勒布赛:6月13日赛程公布!国乒碰日韩强敌,约战张本美和

WTT萨格勒布赛:6月13日赛程公布!国乒碰日韩强敌,约战张本美和

全言作品
2026-06-13 06:40:09
央视再报!“退衣姐”遭刑拘,抓捕现场曝光:女子耍横扬言找关系

央视再报!“退衣姐”遭刑拘,抓捕现场曝光:女子耍横扬言找关系

春之韵
2026-06-11 22:47:27
迪丽热巴陈飞宇恋情曝光2天,男方父母合体,热巴9年已表态3次

迪丽热巴陈飞宇恋情曝光2天,男方父母合体,热巴9年已表态3次

萧鑟科普解说
2026-06-13 03:48:54
小法求购皇马三名球员

小法求购皇马三名球员

体坛周报
2026-06-12 19:01:04
一张图引爆虎扑:你们欢迎她再来中国吗?

一张图引爆虎扑:你们欢迎她再来中国吗?

热搜摘要官
2026-06-12 01:17:39
帕公主离世!泰王放下隔阂照顾颂妃,原配与长女的地位不可撼动

帕公主离世!泰王放下隔阂照顾颂妃,原配与长女的地位不可撼动

小鱼爱鱼乐
2026-06-12 22:56:26
2026-06-13 07:32:49
硅屿手记
硅屿手记
有态度网友ytd
370文章数 42关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

伊美谅解备忘录草案部分内容披露 涉及撤军、战争赔偿等

头条要闻

伊美谅解备忘录草案部分内容披露 涉及撤军、战争赔偿等

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

教育
本地
游戏
房产
家居

教育要闻

高考出分后,24小时内做好这7件事!

本地新闻

AK刘彰邂逅河北南大港湿地

索尼PS国区运营神了!玩梗《黑袍》:我会玩你的游戏

房产要闻

海南最赚钱行业曝光!最快4年半,海口全款买三房!

家居要闻

空间微调 移形换境

无障碍浏览 进入关怀版