网易首页 > 网易号 > 正文 申请入驻

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

0
分享至


新智元报道

编辑:编辑部 HYZ

【新智元导读】就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。

这些天,硅谷彻底处于中国公司带来的大地震余波中。

全美都在恐慌:是否全球人工智能的中心已经转移到了中国?

就在这当口,全球复现DeepSeek的一波狂潮也来了。

诚如LeCun所言:「这一次,正是开源对闭源的胜利!」


在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。 大模型比拼的不再是动辄千万亿美元的算力战。 OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。

种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。

从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。

30美金,就能看到「啊哈」时刻

来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。

他们表示,结果相当出色!

实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。

更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证「啊哈」时刻。


这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。

然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。

模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。

在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。


在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四种参数规模)。

结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。

他们认为,在这个过程,基础模型的是性能的关键。


他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策。


这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究

基础模型和指令模型两者区别:

  • 指令模型运行速度快,但最终表现与基础模型相当

  • 指令输出的模型更具结构性和可读性


此外,他们还发现,具体的RL算法并不重要。PPO、GRPO、PRIME这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。


而且,模型在推理行为中非常依赖于具体的任务:

  • 对于Countdow任务,模型学习进行搜索和自我验证

  • 对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决


苹果机器学习科学家Yizhe Zhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。


7B模型复刻,结果令人惊讶

港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。

结果令人惊喜——模型在复杂的数学推理上取得了十分强劲结果。



项目地址:https://github.com/hkust-nlp/simpleRL-reason

他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。

整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。

最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。

这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!



其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。

Qwen2.5-7B-SimpleRL则首先通过Long CoT监督微调(SFT)作为冷启动,然后再进行强化学习。

在这两种方法中,团队都只使用了相同的8K MATH样本,仅此而已。

大概在第44步的时候,「啊哈时刻」出现了!模型的响应中,出现了自我反思。


并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。


在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。

与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS(蒙特卡洛树搜索)类技术。

他们使用的是PPO算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:

  • 如果输出以指定格式提供最终答案且正确,获得+1的奖励

  • 如果输出提供最终答案但不正确,奖励设为-0.5

  • 如果输出未能提供最终答案,奖励设为-1

该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。

第一部分:SimpleRL-Zero(从头开始的强化学习)

接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。

训练过程动态分析

如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。

经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。

输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。

随后,生成长度开始再次增加,此时出现了自我反思机制。


训练奖励和输出长度


基准测试准确率(pass@1)和输出长度


自我反思机制的涌现

在训练到第 40 步左右时,研究者观察到:模型开始形成自我反思模式,这正是DeepSeek-R1论文中所描述的「aha moment」(顿悟时刻)。


第二部分:SimpleRL(基于模仿预热的强化学习)

如前所述,研究者在进行强化学习之前,先进行了long CoT SFT预热,使用了8,000个从QwQ-32B-Preview中提取的MATH示例响应作为SFT数据集。

这种冷启动的潜在优势在于:模型在开始强化学习时已具备long CoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。


与RL训练前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。

此外,Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME,还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。

训练过程分析


训练奖励和输出长度


基准测试准确率(pass@1)和输出长度

Qwen2.5-SimpleRL的训练动态表现与Qwen2.5-SimpleRL-Zero相似。

有趣的是,尽管研究者先进行了long CoT SFT,但在强化学习初期仍然观察到输出长度减少的现象。

他们推测,这可能是因为从QwQ提取的推理模式不适合小型策略模型,或超出了其能力范围。

因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。

最后,研究者用达芬奇的一句话,对这项研究做了总结——

简约,便是最终极的精致。


完全开源复刻,HuggingFace下场了

甚至,就连全球最大开源平台HuggingFace团队,今天官宣复刻DeepSeek R1所有pipeline。

复刻完成后,所有的训练数据、训练脚本等等,将全部开源。


这个项目叫做Open R1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。


项目地址:https://github.com/huggingface/open-r1

研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。

  • 步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。

  • 步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。

  • 步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。


从斯坦福到MIT,R1成为首选

一个副业项目,让全世界科技大厂为之惶恐。

DeepSeek这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在APP Store「效率」应用榜单中挤进前三。


在Hugging Face中,R1下载量直接登顶,另外3个模型也霸占着热榜。


a16z合伙人Anjney Midha称,一夜之间,从斯坦福到MIT,DeepSeek R1已经成为美国顶尖高校研究人员「首选模型」。


还有研究人员表示,DeepSeek基本上取代了我用ChatGPT的需求。


中国AI,这一次真的震撼了世界。

参考资料:

https://x.com/junxian_he/status/1883183099787571519

https://x.com/jiayi_pirate/status/1882839370505621655

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾被封杀的陶晶莹为大S发声,称其不会撒谎!当面喊具俊晔光头!

曾被封杀的陶晶莹为大S发声,称其不会撒谎!当面喊具俊晔光头!

山山视角
2025-02-07 01:37:50
《蛟龙行动》路演宣传又翻车了,疑找观众冒充军人,挑战网友底线

《蛟龙行动》路演宣传又翻车了,疑找观众冒充军人,挑战网友底线

辣条小剧场
2025-02-05 21:32:12
北京最被看好的郊区板块,房价疯狂下跌!

北京最被看好的郊区板块,房价疯狂下跌!

坠入二次元的海洋
2025-02-06 18:48:43
《哪吒2》带火“毛坯”商场?影院:上映前已开业,商场、消防回应

《哪吒2》带火“毛坯”商场?影院:上映前已开业,商场、消防回应

上游新闻
2025-02-06 20:28:19
《哪吒2》导演网购被认出, 客服: 是你吗饺子,饺子回应让人笑翻

《哪吒2》导演网购被认出, 客服: 是你吗饺子,饺子回应让人笑翻

娱最资讯
2025-02-05 19:17:21
卢沙野,有新职

卢沙野,有新职

新京报
2025-02-06 16:05:11
持续因伤缺战!Stein:独行侠本想取消凯莱布-马丁交易

持续因伤缺战!Stein:独行侠本想取消凯莱布-马丁交易

直播吧
2025-02-07 05:12:39
这个春节,让我真真切切地感受到,50岁的我被这个时代抛弃了!

这个春节,让我真真切切地感受到,50岁的我被这个时代抛弃了!

猫小狸同学
2025-02-06 21:45:03
性的魅力!女人的生理需求。

性的魅力!女人的生理需求。

荷兰豆爱健康
2025-02-05 20:47:47
中国棋院让步了?韩媒:农心杯本月如期举行 LG杯风波如何收场成谜

中国棋院让步了?韩媒:农心杯本月如期举行 LG杯风波如何收场成谜

劲爆体坛
2025-02-06 22:20:07
具俊晔宣布放弃继承大s遗产!称汪小菲是坏人,不让恶人接触孩子

具俊晔宣布放弃继承大s遗产!称汪小菲是坏人,不让恶人接触孩子

祝晓塬
2025-02-07 06:50:21
越过这个年龄,得癌症的概率就开始变小

越过这个年龄,得癌症的概率就开始变小

报人刘亚东
2025-02-06 11:38:18
天下苦谷歌久矣,把世界共享的安卓当私产,去安卓是一场科技硬仗

天下苦谷歌久矣,把世界共享的安卓当私产,去安卓是一场科技硬仗

历史阿务
2025-02-06 09:27:22
因美纳被中国商务部列入不可靠实体清单,公司称正在寻求解决方案

因美纳被中国商务部列入不可靠实体清单,公司称正在寻求解决方案

第一财经资讯
2025-02-06 18:39:09
2天闪击40公里,端了刚果金司令部、指挥部,主力部队一哄而散!

2天闪击40公里,端了刚果金司令部、指挥部,主力部队一哄而散!

星辰故事屋
2025-02-06 21:31:12
F35C迫降松山机场,日媒称从南海飞来,在黄岩岛上空对峙时落败?

F35C迫降松山机场,日媒称从南海飞来,在黄岩岛上空对峙时落败?

国平视野
2025-02-06 13:42:07
南海“混战”开打!敌人全都来了,美军亲自下场,解放军寸步不让

南海“混战”开打!敌人全都来了,美军亲自下场,解放军寸步不让

视野聚椒
2025-02-06 11:29:41
俄罗斯30家最大炼油厂已被炸三分之二!乌军开始用半吨级制导炸弹

俄罗斯30家最大炼油厂已被炸三分之二!乌军开始用半吨级制导炸弹

鹰眼Defence
2025-02-06 17:17:30
李嘉诚,大撤退!抛45%股份,疯狂套现,业内:2025年市场恐生变

李嘉诚,大撤退!抛45%股份,疯狂套现,业内:2025年市场恐生变

南生今世说
2025-02-01 14:40:43
WTT新加坡大满贯:王楚钦3-0卡尔伯格,挺进男单8强

WTT新加坡大满贯:王楚钦3-0卡尔伯格,挺进男单8强

雷速体育
2025-02-06 20:36:16
2025-02-07 07:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12114文章数 65846关注度
往期回顾 全部

科技要闻

DeepSeek引爆本地部署热潮 PC换机潮可期?

头条要闻

特朗普签署行政令 制裁国际刑事法院

头条要闻

特朗普签署行政令 制裁国际刑事法院

体育要闻

勇士还是给自己上了强度

娱乐要闻

友人透露大S骨灰放家里的原因

财经要闻

德银:2025年中国股票"估值折价"将消失

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

时尚
健康
艺术
数码
手机

复工了,我的同事不是人

抑郁症患者称好的“乌托邦”宝地

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

荣耀朱臣才透露 HUNTER 系列笔记本将搭载 50 系显卡

手机要闻

一加“双机”被确认:小屏+大电池,或对标小米手机!

无障碍浏览 进入关怀版