网易首页 > 网易号 > 正文 申请入驻

历史分水岭:DeepSeek GitHub星数超越OpenAI!大佬揭秘仅用450美元训推理模型

0
分享至

新智元报道

编辑:编辑部

【新智元导读】刚刚,DeepSeek的GitHub星数,超越了OpenAI!V3的Star数,如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文,直接帮我们揭秘了如何仅用450美元,训出一个推理模型。

就在刚刚,历史性的一刻出现了。

DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。

热度最高的DeepSeek-V3,Star数如今已达7.7万。

可以说,这是开源AI历史上的一个里程碑!

而DeepSeek-R1,更是仅用了3周时间,就超越了「openai-cookbook」。

前有App Store登顶,今有GitHub超越,网友们高呼:永远不要低估开源社区的力量!

如今,DeepSeek的势头越来越猛。

相信大家都发现,DeepSeek的服务器简直要爆了。

甚至就在昨天,DeepSeek还不得不官宣:暂停API充值。

原因当然就是因为,用户的热情实在太火爆,服务器真扛不住了。

最近,关于DeepSeek的一些流传甚广的说法,也纷纷有专家辟谣了。

澄清一:DeepSeek绕过了CUDA架构

其中一个广为流传的说法是DeepSeek绕过了CUDA。

这源于DeepSeek的论文中提到,模型采用了PTX编程,通过这样的定制优化,让模型能更好地释放底层硬件的性能。

严谨来说,DeepSeek通过编写PTX解决了跨芯片通信瓶颈,虽然复杂,但降低了开销、提升了效率。

本质上,PTX仍然是位于CUDA驱动层内部的一个组件,是英伟达CUDA编程模型的一部分,能将CUDA源代码(C/C++)转变为机器指令的一个中间阶段。

在运行时,PTX会进一步被编译成在GPU上运行的最终机器码(SASS)。

而DeepSeek团队的聪明之处就在于,用这种方法能更好地实现对底层硬件的编程和调用。

这种主动优化,无论在H800还是H100上都能提高通信互联效率。

因此,DeepSeek仍然没有摆脱CUDA生态。

澄清二:R1的训练成本,绝不仅仅是600万美元!

而关于DeepSeek-R1的另一个谣言,就是R1的训练成本大约是600万美元。

开发者大神Sebastian指出,很多人都混淆了DeepSeek-V3和DeepSeek-R1。(前者要早1个月)

其中,DeepSeek-V3中宣称的550万美元,是基于GPU成本、GPU小时数、数据集规模和模型规模等估算出来的。

但DeepSeek团队从没公开过R1确切的GPU小时数或开发成本,目前已有的任何成本估算都只是猜测。

除此之外,Stability AI前研究总监Tanishq Mathew Abraham也在最近的博文中指出,R1在V3基础上进行的强化学习,以及最终训练前团队的大量的小规模实验和消融研究都未包含在内。

更何况还有研究者的薪资,据传已经跟OpenAI、Anthropic等顶级机构的薪资相当(高达100万美元)。

V3和R1,开启推理模型大变局

DeepSeek V3和R1发布后,将怎样搅动此后的LLM江湖?

预算紧张的情况下,怎么开发推理模型?

最近,机器学习大神Sebastian Raschka的这篇长篇博文,为我们做出了硬核预测,并且破除了不少民间对DeepSeek的误解。

Sebastian表示,很多人都来询问自己对DeepSeek-R1的看法。

在他看来,这是一项了不起的成就。

作为一名研究工程师,他非常欣赏那份详细的研究报告,它让自己对方法论有了更深入的了解。

最令人着迷的收获之一,就是推理如何从纯强化学习行为中产生。

甚至,DeepSeek是在MIT许可下开源模型的,比Meta的Llama模型限制更少,令人印象深刻。

在本文中,Sebastian介绍了构建推理模型的四种方法,来提升LLM的推理能力。

图中总结了DeepSeek R1的训练流程。

(1)DeepSeek-R1-Zero:该模型基于2024年12月发布的DeepSeek-V3。研究团队采用RL进行训练,并使用了两种奖励类型。这种方式称为冷启动训练,因为它没有采用RLHF中的SFT步骤。

(2)DeepSeek-R1:这是DeepSeek的旗舰推理模型,构建于DeepSeek-R1-Zero基础上。团队通过额外的SFT阶段和进一步的RL训练,对模型进行了优化。

(3)DeepSeek-R1-Distill:利用前述步骤中生成的SFT数据,团队对Qwen和Llama模型进行了微调,以增强它们的推理能力。尽管不是传统意义上的蒸馏,但该过程是用DeepSeek-R1的输出,来训练较小的模型(Llama 8B和70B,Qwen 1.5B–30B)。

构建推理模型的四种方法

推理时扩展

想要提升LLM的推理能力,或者是其他任何能力,有一种方法叫推理时扩展,就是在推理过程中增加计算资源,让输出的结果质量更高。

人类在解决复杂问题时,如果思考时间更充裕,往往能给出更好的答案。

有一种推理时扩展的简单方法,是巧妙的运用提示工程。思维链(CoT)提示法是一个经典例子,在处理复杂问题时,通常能得到更准确的结果。

另一种推理时扩展的方法是使用投票和搜索策略。

一个简单的例子是多数投票方法,让LLM生成多个答案,然后通过投票选出正确答案。

同样,也可以使用束搜索(beam search)和其他搜索算法来生成更好的响应。

推测OpenAI的o1和o3模型使用了推理时扩展。此外,o1和o3可能还运用了与DeepSeek R1类似的RL流程来训练。

纯强化学习(RL)

DeepSeek R1论文中的一个亮点是,推理行为可以通过纯强化学习(RL)产生。

通常在RL训练之前,会先进行SFT,但DeepSeek-R1-Zero完全通过RL训练,没有初始的SFT阶段。

DeepSeek-R1-Zero的一个关键区别是它跳过了SFT阶段。

在奖励机制上,DeepSeek没有采用基于人类偏好的奖励模型,而是采用了准确性奖励和格式奖励。

- 准确性奖励,是用LeetCode编译器来验证编程答案,并用确定性系统评估数学回答。

- 格式奖励,则靠LLM评判器,保证回答符合预期格式,比如把推理步骤放在标签里。

让人意外的是,靠这种方法,LLM就能发展出基本的推理能力。

研究人员观察到「顿悟时刻」:模型开始在回答中生成推理过程,即使没有专门训练它这么做。

尽管R1-Zero并不是性能最优的推理模型,但它通过生成中间的思考步骤展示了推理能力。这证明用纯强化学习(RL)开发推理模型是可行的。

监督微调和强化学习(SFT+RL)

旗舰模型DeepSeek-R1通过结合额外的SFT和RL,提升了模型的推理表现。

在RL之前进行SFT是常见的做法,标准的RLHF流程就是如此。OpenAI的o1模型很可能也是用类似方法开发的。

如图所示,团队用DeepSeek-R1-Zero生成了冷启动SFT数据。通过指令微调训练模型,接着又进行了一轮RL。

在这一轮RL中,保留了DeepSeek-R1-Zero的准确性奖励和格式奖励,还新增了一致性奖励,来避免语言混杂。

RL结束后,又开始新一轮SFT数据收集。在这个阶段,用最新的模型生成了60万条CoT SFT示例,同时用DeepSeek-V3基础模型创建了另外20万条SFT示例。

上述样本随后被用于另一轮RL训练。在这个阶段,对于数学和编程问题,还是用基于规则的方法进行准确性奖励。对于其他类型的问题,则用人类偏好标签来评判。

经过多轮训练,DeepSeek-R1的性能有了显著提升。

纯监督微调(SFT)和蒸馏

到目前为止,已经介绍了三种用于改进LLM推理能力的方法,最后是模型「蒸馏」。

这里「蒸馏」是指用较大LLM生成的数据集对较小的LLM(如Llama 8B和70B以及Qwen 2.5模型,范围从0.5B到32B)进行指令微调。

实际上,这个蒸馏过程中的SFT数据集,和之前用来训练DeepSeek-R1的数据集是一样的。

为什么开发蒸馏模型?可能有两个关键原因:

1较小的模型更高效。小模型运行成本更低,还能在配置较低的硬件上运行。对研究人员来说很有吸引力。

2纯SFT的案例研究。这些模型展示了在没有RL的情况下,单纯靠SFT能把模型优化到什么程度。

团队将DeepSeek-R1-Zero中的纯RL方法直接应用于Qwen-32B。

结果表明,对于较小的模型,蒸馏远比纯RL更有效。

仅靠RL可能不足以让小模型具备强大的推理能力,在高质量推理数据上进行SFT,或许是对小模型更有效的策略。

接下来一个有趣的方向是把RL+SFT和推理时扩展结合起来,OpenAI的o1很有可能是这样做的,只不过它可能基于一个比DeepSeek-R1更弱的基础模型。

R1和o1相比如何?

Sebastian认为,DeepSeek-R1和OpenAI o1大致在同一水平。

不过引人注目的一点是,DeepSeek-R1在推理时间上更高效。

这就揭示了二者的区别:DeepSeek可能在训练过程中投入了更多,而OpenAI更依赖于o1的推理时扩展。

而很难直接比较两个模型的难点,就在于OpenAI并没有披露太多关于o1的信息。

现在关于o1,还有很多未解之谜。

比如,o1也是一个MoE吗?它究竟有多大?

或许,o1只是GPT-4o的一个略微改进版本,加上最小量的强化学习和微调,仅在推理时进行大规模scaling?

不了解这些细节,是很难直接比较的。

预算只有几十万美元,能开发推理模型吗

不过,想开发一个DeepSeek-R1这样的推理模型,哪怕是基于开放权重的基础模型,也可能需要几十万美元甚至更多资金。

这对预算有限的研究人员或工程师来说,实在是望而却步。

好消息是:蒸馏能开辟新路径!

模型蒸馏提供了一个更具成本效益的替代方案。

DeepSeek团队的R1蒸馏模型证明了这一点,尽管这些模型比DeepSeek-R1小得多,推理表现却强得惊人。

不过,这种方法也不是完全没有成本。他们的蒸馏过程用了80万条SFT样本,这需要大量的计算资源。

有趣的是,就在DeepSeek-R1发布的前几天,关于Sky-T1的文章中,一个团队用1.7万条SFT样本,就训练出了一个32B参数的开放权重模型。

总成本仅有450美元,甚至比大多数人AI会议的注册费还低。

Sky-T1的表现和o1大致相当,考虑到它的训练成本,着实令人惊叹。

预算有限的纯强化学习:TinyZero

TinyZero是3B参数的模型,它借鉴了DeepSeek-R1-Zero的方法,其训练成本不到30美元。

令人意外的是,尽管只有3B参数,TinyZero仍展现出一些突现的自我验证能力,这证明了小模型通过纯RL也能产生推理能力。

这两个项目表明,即使预算有限,也可以进行有趣的推理模型研究。

两者都借鉴了DeepSeek-R1的方法,一种聚焦于纯RL(TinyZero),另一种聚焦于纯SFT(Sky-T1)。

超越传统SFT:旅程学习

旅程学习被视作捷径学习的替代方案。捷径学习是传统的指令微调方法,模型仅通过正确的解题路径来训练。

旅程学习不仅包括正确的解题路径,还包括错误的解题路径,让模型从错误中学习。

这种方法和TinyZero在纯RL训练中展现的自我验证能力有相通之处,不过它完全依靠SFT来优化模型。让模型接触错误推理路径及修正过程。

旅程学习或许有助于加强自我纠错能力,提升推理模型的可靠性。

这一方向对于未来的研究极具吸引力,特别是在低预算的推理模型开发场景中,RL方法可能由于计算成本过高而难以落地。

当前在推理模型领域正有诸多有趣的研究,Sebastian充满期待地表示:相信在未来几个月,还会看到更多令人兴奋的成果!

参考资料:

https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

https://www.tanishq.ai/blog/posts/deepseek-delusions.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

阿纂看事
2026-03-26 16:20:25
出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

共工之锚
2026-03-26 00:57:32
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
5月1日起,全国电动车彻底“变天”,家家户户都要注意

5月1日起,全国电动车彻底“变天”,家家户户都要注意

番外行
2026-03-26 08:19:47
裁员潮下的工程人普遍都不想找工作了!

裁员潮下的工程人普遍都不想找工作了!

黯泉
2026-03-26 18:41:24
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

妍妍教育日记
2026-03-23 20:06:00
瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

Ck的蜜糖
2026-03-26 17:17:14
安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

漫川舟船
2026-03-26 13:02:34
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

音乐时光的娱乐
2026-03-26 18:03:26
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱看剧的阿峰
2026-03-26 17:47:28
一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

白面书誏
2026-03-24 14:40:27
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
福建省委决定,颜桂炀履新(附简历)

福建省委决定,颜桂炀履新(附简历)

人民资讯
2026-03-26 16:28:52
击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

军机Talk
2026-03-26 18:29:49
2026-03-26 19:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
旅游
教育
数码
健康

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版