Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释|meta|机器之心|openai|deepseek

Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

2025-01-24 10:19:41　来源: 机器之心Pro

北京举报

分享至

机器之心报道

机器之心编辑部

「工程师正在疯狂地分析 DeepSeek，试图从中复制任何可能的东西。」

DeepSeek 开源大模型的阳谋，切切实实震撼着美国 AI 公司。

最先陷入恐慌的，似乎是同样推崇开源的 Meta。

最近，有 Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子。帖子提到，国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌，因为在前者的低成本高歌猛进下，后者无法解释自己的超高预算的合理性。

原文如下：

这一切始于 DeepSeek-V3，它在基准测试中就已经让 Llama 4 落后。更糟糕的是那个「拥有 550 万训练预算的不知名中国公司」。
工程师们正在疯狂地分析 DeepSeek，试图从中复制任何可能的东西。这一点都不夸张。
管理层担心如何证明庞大的生成式 AI 组织的成本是合理的。当生成式 AI 组织中的每个「领导」的薪资都比训练整个 DeepSeek-V3 的成本还要高，而我们有好几十个这样的「领导」时，他们要如何面对高层？
DeepSeek-R1 让情况变得更加可怕。虽然我不能透露机密信息，但这些很快就会公开。
这本应该是一个以工程为重点的小型组织，但是因为很多人想要参与进来分一杯羹，人为地膨胀了组织的招聘规模，结果每个人都成了输家。

原贴链接：https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n

帖子中提到的 DeepSeek-V3 和 DeepSeek-R1 分别发布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。

其中，DeepSeek-V3 在发布时提到，该模型在多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

不过，更引人关注的是，这个参数量高达 671B 的大型语言模型训练成本仅 558 万美元。具体来说，它的预训练过程竟然只用了 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练，总共也只有 278.8 H800 GPU Hours。相较之下，Meta 的 Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。

而最近发布的 DeepSeek-R1 性能更猛 —— 在数学、代码、自然语言推理等任务上，它的性能比肩 OpenAI o1 正式版。而且模型在发布的同时，权重同步开源。很多人惊呼，原来 DeepSeek 才是真正的 OpenAI。UC Berkeley 教授 Alex Dimakis 则认为， DeepSeek 现在已经处于领先位置，美国公司可能需要迎头赶上了。

看到这里，我们不难理解为何 Meta 的团队会陷入恐慌。如果今年推出的 Llama 4 没有点硬本事，他们「开源之光」的地位岌岌可危。

有人指出，其实该慌的不止 Meta，OpenAI、谷歌、Anthropic 又何尝没有受到挑战。「这是一件好事，我们可以实时看到公开竞争对创新的影响。」

还有人担心起了英伟达的股价，表示「如果 DeeSeek 的创新是真的，那 AI 公司是否真的需要那么多显卡？」

不过，也有人质疑，DeepSeek 究竟是靠创新还是靠蒸馏 OpenAI 的模型取胜？有人回复说，这可以从他们的发布的技术报告中找到答案。

目前，我们还无法确定帖子的真实性。

不知道 Meta 后续将如何回应，即将到来的 Llama 4 又会达到怎样的性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.