一个想法能走多远,往往取决于有多少人愿意为它填坑。当DeepSeek-R1靠纯强化学习训练出的推理能力引爆讨论时,Hugging Face的工程师们没有停留在惊叹——他们直接开了一个叫Open R1的代码仓库,目标明确:把R1那条还没完全公开的训练流水线,用开源的方式从头搭出来。项目眼下还在施工中,但已经有一群人在往里面搬砖了。这事有意思的地方在于,它不是简单复现一个模型,而是要把DeepSeek论文里那些“说了但没完全说透”的技术细节,一块块补上。
整个计划被拆成了三步,照着DeepSeek-R1技术报告画的路线图走。第一步,从R1模型里蒸馏出高质量的推理数据,复现那些R1-Distill蒸馏版小模型。这一步相当于先拿到高性能的“教师模型”产出的思维链样本,用来训练学生模型。第二步,把DeepSeek训练R1-Zero那条纯强化学习流水线跑通,这大概率得自己动手攒一批数学、推理和代码方向的大规模新数据集。第三步是终局——证明能从基础模型开始,经过多阶段强化学习调优,一步步走到最终的高推理能力模型。
![]()
第一个里程碑已经在5月26日立住了。团队放出了一个叫Mixture-of-Thoughts的数据集,里面包含了从R1蒸馏出的35万条经过验证的推理轨迹,覆盖数学、编程和科学题。配套的OpenR1-Distill-7B模型训练方案也一并公开,实验跑出来的推理能力跟官方版的DeepSeek-R1-Distill-Qwen-7B持平。这意味着第一步已经完工,蒸馏复现这条路算是走通了。
更早的几次更新同样信息量密集。3月11号他们扔出了CodeForces-CoTs数据集,里面有1万道CodeForces竞赛编程题和从R1蒸馏出的10万条解题思路,还顺手发布了一个叫IOI24的新基准——题目全来自国际信息学奥赛,难度极高。用CodeForces-CoTs训练出来的7B参数Qwen模型,在IOI24上直接干掉了Claude 3.7 Sonnet,而32B版本甚至超越了R1原版。再往前到2月10号,基于NuminaMath新版本蒸馏出的22万条推理轨迹数据集OpenR1-Math-220k发布,拿它训出来的模型同样追平了DeepSeek蒸馏版的成绩。
工程实现上也有值得留意的地方。仓库的核心代码模块拆得很清爽:grpo.py负责在指定数据集上跑GRPO(群体相对策略优化)训练,sft.py处理监督微调,generate.py则用Distilabel框架从模型批量生成合成数据。外面包了一层Makefile,把每个步骤都封装成一条命令,想跑哪步直接敲。不过有个小坑得注意——所有依赖都绑在CUDA 12.4上,如果你跑着跑着报segmentation fault,先用nvcc --version查一下系统CUDA版本对不对。环境搭建推荐用uv,一条make install就能把开发库装全,之后就可以直接上手试模型了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.