网易首页 > 网易号 > 正文 申请入驻

创造历史!DeepSeek登顶AppStore,开源竞相复现、Meta 很焦虑

0
分享至

文章转载自「机器之心」。

DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。一觉醒来,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。

不少网友都认为这是他们当之无愧。

毕竟,正如 a16z 合伙人、Mistral 董事会成员 Anjney Midha 说的那样:从斯坦福到麻省理工,DeepSeek-R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

甚至有网友认为 DeepSeek 是 OpenAI 与英伟达都未曾预见的黑天鹅。

与此同时,围绕 DeepSeek-R1 的各路消息也正层出不穷 ——Hugging Face 等组织正在尝试复现 R1、DeepSeek 之前接受的采访被翻译成了英文版并正在 AI 社区引发热议、开发了 Llama 系列模型的 Meta 似乎陷入了焦虑之中…… 下面我们就来简单盘点一下最近两天围绕 DeepSeek 的几个热点议题。

01AI 社区开启 R1 复现热潮

DeepSeek-R1 是开源的,但也没有完全开源 —— 相关的训练数据、训练脚本等并未被公布出来。不过,因为有技术报告,也就有了复现 R1 的指导方针,也因此,最近有不少人都在强调复现 R1 的重要性与可行性。

博主 @Charbax 总结了 DeepSeek 文档中没有介绍的地方以及复现 R1 的一些难点。

  • 训练流程的细节。虽然其技术报告中介绍了强化学习阶段和蒸馏,但省略了关键的实现细节,包括超参数(例如,学习率、批量大小、奖励缩放因子)、用于生成合成训练数据的数据管道(例如,如何编排 800K 蒸馏样本)、需要人类偏好对齐的任务的奖励模型架构(多语言输出的「语言一致性奖励」)。

  • 冷启动数据生成。报告中虽然提到了创建「高质量冷启动数据」(例如,人工标准、少样本提示)的过程,但缺乏具体的示例或数据集。

  • 硬件和基础设施。没有关于计算资源(例如,GPU 集群、训练时间)或软件堆栈优化(例如,DeepSeek-V3 的 AMD ROCM 集成)的详细信息。

  • 复现难题。缺少多阶段强化学习的脚本等组件。

当然,也确实有些团队已经开始行动了。

Open R1:复现一个真・开源版 R1

在复现 R1 的各式项目中,最受人关注的当属 Hugging Face 的 Open R1 项目。

  • 项目地址:https://github.com/huggingface/open-r1

Open R1 宣称是 DeepSeek-R1 的「完全开放复现(A fully open reproduction)」,可以补齐 DeepSeek 没有公开的技术细节。该项目目前还在进行中,已经完成的部分包括:

  • GRPO 实现

  • 训练与评估代码

  • 用于合成数据的生成器

Hugging Face CEO Clem Delangue 的推文

据其项目介绍,Open R1 项目计划分三步实施:

第一步:复现 R1-Distill 模型,具体做法是蒸馏一个来自 DeepSeek-R1 的高质量语料库。

第二步:复现 DeepSeek 用于创建 R1-Zero 的纯强化学习管线。这一步涉及到编排一个新的大规模数据集,其中包含数学、推理和代码数据。

第三步:通过多阶段训练从基础模型得到强化学习微调版模型。

7B 模型 8K 样本复现 R1-Zero 和 R1

另一个复现 R1 的团队是来自香港科技大学的何俊贤(Junxian He)团队,并且他们采用的基础模型和样本量都非常小:基于 7B 模型,仅使用 8K 样本示例,但得到的结果却「惊人地强劲」。

  • 项目地址:https://github.com/hkust-nlp/simpleRL-reason

需要注意,该团队的这个实现的实验大都是在 R1 发布之前完成的。他们发现,仅使用 8K MATH 示例,7B 模型就能涌现出长思维链 (CoT)和自我反思能力,而且在复杂的数学推理上的表现也非常不错。

具体来说,他们从基础模型 Qwen2.5-Math-7B 开始,仅使用来自 MATH 数据集的 8K 样本直接对其进行强化学习。最终得到了 Qwen2.5-SimpleRL-Zero 与 Qwen2.5-SimpleRL。

或者按其博客的说法:「没有奖励模型,没有 SFT,只有 8K 用于验证的 Math 样本,得到的模型在 AIME 上成绩为(pass@1 准确率)33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%,优于 Qwen2.5-math-7B-instruct,可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」

Qwen2.5-SimpleRL-Zero 的训练动态

所得模型与基线模型的 pass@1 准确度

基于 3B 模型用 30 美元复现 R1

TinyZero 则是一个尝试复现 DeepSeek-R1-Zero 的项目,据其作者、伯克利 AI 研究所在读博士潘家怡(Jiayi Pan)介绍,该项目是基于 CountDown 游戏实现的,完整配方有一句话就能说完:「遵照 DeepSeek R1-Zero 的算法 —— 一个基础语言模型、提示词和 ground-truth 奖励,然后运行强化学习。」

实验过程中,模型一开始的输出很蠢笨,但逐渐发展出修改和搜索等策略。下面展示了一个示例,可以看到模型提出解决方案,自我验证,并反复修改,直到成功。

实验中,该团队也得到了一些有意思的发现:

基础模型的质量很重要。0.5B 的小模型在猜测一个解答之后就会停止,而从 1.5B 规模开始,模型会开始学习搜索、自我验证、修正解答,从而可以得到远远更高的分数。

基础模型和指令模型都可行。实验发现,指令模型的学习速度更快,但性能会收敛到与基础模型同等的程度;同时指令模型的输出更加结构化、更可读。

具体采用什么强化学习算法并不重要。该团队尝试了 PPO、GRPO 和 PRIME,但它们的差异并不大。‍

模型的推理行为严重取决于具体任务。对于 CountDown 游戏,模型会学习执行搜索和自我验证;对于数值乘法,模型会学习使用分配律分解问题并逐步解决。

模型学会乘法分配律

而最惊人的是,整个项目的计算成本不到 30 美元。

02Meta 的焦虑:下一代 Llama 可能赶不上 R1

数天前,机器之心报道文章 引起广泛关注与讨论。

文章中, Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌。

今日,The Information 最新的文章爆料出更多内容。

在文章中,The Information 爆料称包括 Meta 人工智能基础设施总监 Mathew Oldham 在内的领导表示,他们担心 Meta Llama 的下一个版本性能不会像 DeepSeek 的那样好。

Meta 也暗示 Llama 的下一个版本将于本季度发布。

此外,文章也爆料,Meta 生成式 AI 小组和基础设施团队组织了四个作战室来学习 DeepSeek 的工作原理。

其中两个作战室,正在试图了解幻方是如何降低训练和运行 DeepSeek 模型的成本。其中一名员工表示:Meta 希望将这些技术应用于 Llama。

其中一些开发人员透露,尽管 Meta 的模型是免费的,但它们的运行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通过批量处理其模型客户的数百万条查询来降低价格。但是,使用 Llama 的小型开发人员却没有足够的查询来降低成本。

据一位直接了解情况的员工透露,第三个作战室正在试图弄清楚幻方可能使用哪些数据来训练其模型。

第四作战室正在考虑基于 DeepSeek 模型的新技术,重构 Meta 模型。Meta 考虑推出一个与 DeepSeek 相似的 Llama 版本,它将包含多个 AI 模型,每个模型处理不同的任务。这样,当客户要求 Llama 处理某项任务时,只需要模型的某些部分进行处理。这样做可以使整个模型运行得更快,并且以更少的算力来运行。

不知道,在这样的压力下,2025 年 Meta 会拿出什么样的开源模型?说不定,Meta 也会加入到复现 R1 的浪潮中。

不过可以预料的是,在 DeepSeek 这条鲶鱼的搅动下,新一年的大模型格局正在发生转变。

对新一年的 AI 技术发展与应用,你有什么样的期待?欢迎留言讨论。

https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

瓜汁橘长Dr
2025-12-30 17:03:39
恒大背后的香港大佬们,到底从恒大身上赚了多少钱?

恒大背后的香港大佬们,到底从恒大身上赚了多少钱?

担扑
2026-01-23 13:19:54
新门澳六叔特码,【034期最新内幕资料】2026今晚开什么生肖大全

新门澳六叔特码,【034期最新内幕资料】2026今晚开什么生肖大全

申绵汽车服务
2026-02-03 00:38:10
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
被特朗普关税大棒捶了一顿后,印度认清现实,接受与中国的新现状

被特朗普关税大棒捶了一顿后,印度认清现实,接受与中国的新现状

明天后天大后天
2026-02-02 18:13:58
逃亡台湾不久,毛森随即遭到蒋经国通缉,蒋介石:快去香港杀了他

逃亡台湾不久,毛森随即遭到蒋经国通缉,蒋介石:快去香港杀了他

史笔似尘钩
2025-10-12 20:58:04
1200万辆电动自行车路权够吗?政协委员问交通委

1200万辆电动自行车路权够吗?政协委员问交通委

看看新闻Knews
2026-02-02 19:31:09
今年教育部一号文件:高考的大逻辑正在发生变化,刷题时代过去了

今年教育部一号文件:高考的大逻辑正在发生变化,刷题时代过去了

狐狸先森讲升学规划
2026-02-01 08:51:45
朝鲜战争期间:美军原本已接近击败中国,却碰上中国决死的指挥官

朝鲜战争期间:美军原本已接近击败中国,却碰上中国决死的指挥官

千秋文化
2026-01-31 21:14:51
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
广东宏远四位外援均为保障合同,签约第五外援的预算相当有限!

广东宏远四位外援均为保障合同,签约第五外援的预算相当有限!

廣東篮球掂
2026-02-02 12:01:22
22岁小伙患上阴茎癌晚期,抱头痛哭:我知道这样做不好但我戒不掉

22岁小伙患上阴茎癌晚期,抱头痛哭:我知道这样做不好但我戒不掉

今日养生之道
2026-01-31 15:40:35
券商重组不仅是合并!真正的价值在财富管理,这2家龙头渠道最强

券商重组不仅是合并!真正的价值在财富管理,这2家龙头渠道最强

小白鸽财经
2026-01-29 20:30:03
重庆这些交通项目今年开竣工,看看哪个与你有关

重庆这些交通项目今年开竣工,看看哪个与你有关

都市热报
2026-02-02 20:09:45
国防部:中方将与俄方进一步加强战略协作

国防部:中方将与俄方进一步加强战略协作

新京报
2026-01-29 15:44:02
奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

懂球帝
2026-02-02 14:18:30
那个3岁识千字、6岁夺央视冠军山东神童王恒屹,如今怎样

那个3岁识千字、6岁夺央视冠军山东神童王恒屹,如今怎样

素衣读史
2025-12-08 16:04:03
罕见!25年来第一次,中国退居全球第三,背后信号很不寻常

罕见!25年来第一次,中国退居全球第三,背后信号很不寻常

芳芳历史烩
2026-01-23 19:42:45
许多老年人的退休金,渐渐成了全家人的“救命钱”。

许多老年人的退休金,渐渐成了全家人的“救命钱”。

爱吃糖的猫cat
2026-02-02 18:13:58
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
2026-02-03 02:43:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1124文章数 151关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

本地
教育
家居
手机
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

俞敏洪说“一大半老师不合格”?别急着骂,先听他说完

家居要闻

现代几何彩拼 智焕童梦居

手机要闻

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版