继OpenAI之后，Anthropic CEO发声：DeepSeek正用一个意想不到的方式，改写全球AI规则|编程|预训练|大模型|openai|deepseek|anthropic

分享至

　　全文 4,000字 | 阅读约10分钟

　　【导语】

　　在全球AI领域，当两大巨头相继对同一家公司发表评论时，往往意味着一个重要拐点的到来。近期，继OpenAI CEO Sam Altman称赞DeepSeek的R1模型"令人印象深刻"后，Anthropic的掌门人也对这家中国AI公司作出深度解读，引发业界广泛关注。

　　【核心要点预览】

　　DeepSeek的技术突破更多体现了AI领域的自然成本下降趋势，而非颠覆性创新。

　　在全球AI竞争格局中，大规模计算资源的获取和控制能力仍是决定性因素。

　　企业需要投入更多资源来保持竞争力，谁能获得并掌控关键计算资源，谁就能在全球AI竞争中占据主导地位。

　　竞争不仅仅是技术层面的较量，更关乎未来全球科技格局的走向。

　　从表面上看，DeepSeek似乎只是用更低的成本，复制了美国顶级AI模型的成就。但在Amodei看来，事情远不这么简单。这不仅关乎单个企业的成功，更揭示了整个AI行业发展的深层规律。正如他所说，DeepSeek的进展并非偶然，而是符合AI技术发展的基本逻辑。

　　要理解这一现象，我们首先需要厘清推动AI发展的三大核心动力。这些动力不仅解释了为什么DeepSeek能够在短时间内取得如此显著的进展，也让我们得以一窥未来AI竞争的关键所在。

　　三大 AI 发展动力

　　在谈政策之前，先得了解三种关于 AI 系统的核心发展动力：

　　1、扩展定律 ( Scaling laws )

　　简单来说，当我们对 AI 系统加大训练规模时，它在各类认知任务上的表现往往会平稳而且大幅度地提升。我的团队和我在 OpenAI 时，就率先记录了这个现象。比如，一款投入 100 万美元训练的模型可能只能完成 20% 的重要编程任务；如果投入 1000 万美元，成绩就能提升到 40%；而 1 亿美元的投入则能达到 60%——其中的差距在实际应用中意义非凡：再多投入一个数量级，模型可能就从本科生水平跳到博士生水平。因此，各家公司都在积极投入资金来提升模型实力。

　　2、推动曲线 ( Shifting the curve )

　　在这一领域，层出不穷的新想法能让模型训练和运行效率更高：可能是对 Transformer 架构做一些微调，也可能是让模型在硬件上跑得更顺畅。新一代硬件同样有这方面的效果。其结果就是“推动”整条曲线前进：如果有个创新可以带来 2 倍的“ compute multiplier ( CM )”，那么同样的指标就能用原本一半的预算达成。前沿的 AI 公司经常发现各种幅度不同的 CM ——大多是 1.2 倍左右的改进，有时能到 2 倍，偶尔还能达到 10 倍。由于更强大的系统价值极大，公司往往会把节省下来的成本再投回到更大规模的训练上，从而让模型更加智能；唯一的限制是公司自身的预算规模。很多人会直觉地认为：“先贵后便宜”，好像 AI 质量不变，价格便宜了我们就会少用芯片，但真正要看的是扩展曲线：当效率提升时，我们只会更快往曲线的高端走，因为高端的潜在价值实在太大。我的团队在 2020 年发表的论文指出，算法改进能让这条曲线每年推进 1.68 倍；近年来这个数字可能更高，还没把硬件和效率提升算进来。估计当下的速度或许能达到每年 4 倍。有另一种测算也能佐证这一点。而且，训练曲线的这种推动也会带动推理曲线 ( inference curve ) 的进步，所以，保持同样质量的模型时，成本已在过去几年里不断下降。像 Claude 3.5 Sonnet 就比最初的 GPT-4 发布晚了 15 个月，但在大部分测评上都超过了 GPT-4 ， API 价格却便宜了 10 倍左右。

　　2、转变范式 ( Shifting the paradigm )

　　有时候，扩展所基于的核心思路会发生变化，或者训练流程里会加入新的扩展手段。2020 年到 2023 年，大家主要是不断加大预训练模型的规模——先在海量 internet text 上进行训练，再辅以少量其它训练。可到了 2024 年，用 reinforcement learning ( RL ) 来教模型生成推理链 ( chains of thought ) 已成为新的研究热点。Anthropic 、 DeepSeek 和其他不少公司（尤其是 OpenAI 在 9 月推出的 o1-preview 模型）都发现，这样的训练方式能显著提升模型在数学、编程竞赛以及类似推理任务上的客观性能。具体做法是先获取一个常规预训练模型，然后在第二阶段使用 RL 来增强它的推理能力。因为这种 RL 还算新颖，大家都只是在第二阶段投入相对不大的费用，但即便从 10 万美元提高到 100 万美元也能带来巨大飞跃。如今，各家公司都在加速把这部分预算扩展到数亿乃至数十亿美元，但重要的是要意识到：我们正处于一个“交汇点”上——这一新范式非常强大，而且还处在扩展曲线的初期，因此可以在短期内看到惊人的进步。

　　DeepSeek 的模型发布

　　前面提到的三种驱动 AI 发展的动力，也能帮助我们理解 DeepSeek 最近的模型发布。大约一个月前， DeepSeek 推出了 “ DeepSeek-V3 ”，这是一种纯预训练模型³——对应前文第 3 点所提及的第一阶段。上周他们又发布了 “ R1 ”，加入了第二阶段。从外部观察，我们无法知晓这些模型的所有细节，但以下是我对它们的主要认识。

　　实际上，真正令人眼前一亮的，是一个月前就已发布的 DeepSeek-V3 ——这个模型当时就值得引起大家的关注（我们也确实如此）。DeepSeek-V3 作为一款预训练模型，似乎能在某些关键任务上接近美国顶尖 US 模型的水平⁴，而且训练成本还明显更低（不过我们发现， Claude 3.5 Sonnet 在现实编程等一些关键任务上依然有明显优势）。DeepSeek 团队主要依靠在工程效率方面的一系列真材实料、令人印象深刻的创新做到这一点，其中包括对 “ Key-Value cache ” 的创新管理，以及推动 “ mixture of experts ” 方法比过去更进一步的尝试。

　　但我们要仔细看看背后情况：

　　DeepSeek 并没有像一些人所说的那样，“只花 600 万美元⁵就做到了 US AI 公司花数十亿美元才能完成的事”。至少就 Anthropic 而言：Claude 3.5 Sonnet 是个中等规模的模型，训练花费是几千万美元级别（我不会给出确切数字）。此外， 3.5 Sonnet 并没有通过更庞大或更昂贵的模型进行任何训练（这与传言相反）。Sonnet 的训练发生在 9 到 12 个月前，而 DeepSeek 的模型是在去年 11 月和 12 月训练的，而且 Sonnet 在许多内部和外部测评中依然领先。所以，更合理的说法是：“ DeepSeek 以相对较低的成本（但没想象中那么夸张），做出了性能接近美国 7～10 个月前那些模型的成果。”

　　如果过去的历史趋势是训练成本每年能下降 4 倍左右，那么像 2023 和 2024 年那样的大幅度成本下降并不意外。因此，人们自然而然会在今年这个时段，看到一个比 3.5 Sonnet / GPT-4o 便宜 3～4 倍的模型出现。而因为 DeepSeek-V3 和美国目前最前沿的模型相比还有一定差距——可以估算它在扩展曲线 ( scaling curve ) 上差了约两倍（我其实已经很看好它了）——那么如果 DeepSeek-V3 的训练成本比美国当前这些一年前发布的模型低 8 倍左右，也完全在预期范围内。所以，即便认可 DeepSeek 自己宣称的训练成本，这个结果也只是“符合历史趋势”，甚至有可能还达不到。比如，从最早的 GPT-4 到 Claude 3.5 Sonnet 的推理价格差就达到 10 倍，而 3.5 Sonnet 的质量还胜过 GPT-4 。因此， DeepSeek-V3 称不上是个重大突破，也没有在根本上改变大规模语言模型 ( LLM ) 的经济逻辑；它只是一个落在成本持续下降曲线上的“正常点”。不过，此次与以往不同的地方在于，第一家把这种常规成本下降呈现出来的企业是来自中国，这在地缘政治层面非常值得关注。但美国公司很快也会跟进——不是通过抄袭 DeepSeek ，而是因为他们一样在达成常规的成本下降趋势。

　　DeepSeek 和美国 AI 公司都拥有比以往训练它们“主打”模型时更多的资金和芯片储备。额外的芯片往往用于研发，以尝试新的思路，或者来训练更大的模型（可能还没正式推出，或者需要多次试验才能成功）。据报道（我们无法保证其真实性）， DeepSeek 可能拥有 5 万块 Hopper 代芯片，我估算这可能比美国主要 AI 公司拥有的数量相差 2～3 倍（相比之下，这比 xAI 的 “ Colossus ” 集群少 2～3 倍）。这 5 万块 Hopper 芯片差不多要花 10 亿美元。因此， DeepSeek 作为一家公司（不是训练单个模型），它的总投入和美国 AI 实验室比并没有高出很多。

　　另外，“扩展曲线” ( scaling curve ) 的分析确实有些简化，因为不同模型在不同任务上有强项和弱项；曲线仅仅是一个忽略了许多细节的粗略平均值。就 Anthropic 的模型而言，正如我前面提到的， Claude 在写代码方面表现极好，而且在人机交互的风格设计上也相当优秀（很多人用它来做个人建议或情感支持）。在这些以及一些其他任务上， DeepSeek 与之相比还差得远。这部分实力差异不会体现在单纯的扩展曲线数据里。

　　执行得力的出口管制是唯一能大幅降低中国大规模获取芯片风险的关键手段，也是在国际格局中维持单极或双极态势的重要因素。

　　并不是因为 DeepSeek 表现优异，出口管制就已经失效。正如我先前提到， DeepSeek 拥有相当可观的芯片资源，所以他们能研发并训练出高水平的模型并不令人意外。他们在硬件与资金上并不比 US 的 AI 公司匮乏，而出口管制并非促使他们“创新”的根本原因。就工程实力而言，他们的团队确实相当出色，也显示出China在此领域与 US 之间的竞争力。

　　同时， DeepSeek 并没有证明中国可以无限通过走私获得所有想要的芯片，也没有显示出口管制存在难以补救的漏洞。我并不认为出口管制的目标是阻止它获得几万块芯片——隐藏 1B 美元的交易也许并非绝无可能，但要隐藏 10B 或 100B 美元就相当困难，更不用说一次性走私数以百万计的芯片。在 SemiAnalysis 的报道中， DeepSeek 目前拥有包括 H100 、 H800 和 H20 在内的约 5 万块芯片；自 H100 发布以来就被列入禁运清单，所以如果他们真有 H100 ，只能通过少量特殊渠道获取（尽管 Nvidia 方面曾表示， DeepSeek 所做的工作“完全符合出口管制规定”）。至于 H800 是在 2022 年第一轮管制时仍可正常出口的，但在 2023 年 10 月新规出台后被禁止，因此很可能是禁令前已交付；而 H20 虽然在训练效率上不及前两种芯片，但推理性能较佳，目前仍属允许出口范围。可见， DeepSeek 的芯片组合中，一部分属于当时未被禁止但后续或应纳入限制的型号，一部分是在禁令生效前就交付，还有一些可能是通过非正常手段获取。由此也能看出，出口管制正在不断完善、堵漏；如果没有这些管制，或许他们可以更容易获得更多更高端的芯片。只要管控收紧及时，就有可能限制 China 在更大规模上获取这些芯片，从而提升 US 维持优势地位的可能性。

　　之所以我会着重讨论出口管制与 US 的安全问题，并不是要刻意“针对” DeepSeek 。从他们的访谈看，这家公司专注于技术研发本身，致力于做出实用产品。

　　但如果他们的技术能在 AI 领域与美国持平甚至超越，全球在此领域的竞争格局将会出现诸多不确定性。基于多种考量，出口管制依然是影响这一竞争态势的重要调控手段。技术不断升级、效能不断提高，若将此视为放宽管制的理由，则可能带来更多不可预见的风险。

　　原文链接：https://darioamodei.com/on-deepseek-and-export-controls

　　来源：官方媒体/网络新闻

　　排版：Atlas

　　编辑：深思

　　主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.