这个开源项目要拆解DeepSeek-R1，「三步走」进度条到哪了？|编程|代码|推理|开源模型|deepseek

这个开源项目要拆解DeepSeek-R1，「三步走」进度条到哪了？

2026-06-12 06:39:26　来源: 硅屿手记

北京举报

分享至

一个想法能走多远，往往取决于有多少人愿意为它填坑。当DeepSeek-R1靠纯强化学习训练出的推理能力引爆讨论时，Hugging Face的工程师们没有停留在惊叹——他们直接开了一个叫Open R1的代码仓库，目标明确：把R1那条还没完全公开的训练流水线，用开源的方式从头搭出来。项目眼下还在施工中，但已经有一群人在往里面搬砖了。这事有意思的地方在于，它不是简单复现一个模型，而是要把DeepSeek论文里那些“说了但没完全说透”的技术细节，一块块补上。

整个计划被拆成了三步，照着DeepSeek-R1技术报告画的路线图走。第一步，从R1模型里蒸馏出高质量的推理数据，复现那些R1-Distill蒸馏版小模型。这一步相当于先拿到高性能的“教师模型”产出的思维链样本，用来训练学生模型。第二步，把DeepSeek训练R1-Zero那条纯强化学习流水线跑通，这大概率得自己动手攒一批数学、推理和代码方向的大规模新数据集。第三步是终局——证明能从基础模型开始，经过多阶段强化学习调优，一步步走到最终的高推理能力模型。

第一个里程碑已经在5月26日立住了。团队放出了一个叫Mixture-of-Thoughts的数据集，里面包含了从R1蒸馏出的35万条经过验证的推理轨迹，覆盖数学、编程和科学题。配套的OpenR1-Distill-7B模型训练方案也一并公开，实验跑出来的推理能力跟官方版的DeepSeek-R1-Distill-Qwen-7B持平。这意味着第一步已经完工，蒸馏复现这条路算是走通了。

更早的几次更新同样信息量密集。3月11号他们扔出了CodeForces-CoTs数据集，里面有1万道CodeForces竞赛编程题和从R1蒸馏出的10万条解题思路，还顺手发布了一个叫IOI24的新基准——题目全来自国际信息学奥赛，难度极高。用CodeForces-CoTs训练出来的7B参数Qwen模型，在IOI24上直接干掉了Claude 3.7 Sonnet，而32B版本甚至超越了R1原版。再往前到2月10号，基于NuminaMath新版本蒸馏出的22万条推理轨迹数据集OpenR1-Math-220k发布，拿它训出来的模型同样追平了DeepSeek蒸馏版的成绩。

工程实现上也有值得留意的地方。仓库的核心代码模块拆得很清爽：grpo.py负责在指定数据集上跑GRPO（群体相对策略优化）训练，sft.py处理监督微调，generate.py则用Distilabel框架从模型批量生成合成数据。外面包了一层Makefile，把每个步骤都封装成一条命令，想跑哪步直接敲。不过有个小坑得注意——所有依赖都绑在CUDA 12.4上，如果你跑着跑着报segmentation fault，先用nvcc --version查一下系统CUDA版本对不对。环境搭建推荐用uv，一条make install就能把开发库装全，之后就可以直接上手试模型了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.