硅谷不眠夜：DeepSeek为何震动美国科技界？|人工智能领域|deepseek

分享至

DeepSeek 给硅谷带来的震撼还在持续，并不见降温的迹象。如果和几个月前的《黑神话·悟空》在欧美受到的追捧相比，DeepSeek 的出现可谓是“石破天惊”，充满了各种不可能、不合理。它讲述了一个如何在层层封锁、劲敌环伺的背景下铁树生花的故事，让美国精心设置的人工智能技术小院高墙展现出了坍塌的风险。

“我们正生活在一个特殊的时代：一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究，为所有人赋能。这看似不合常理，但最富戏剧性的往往最可能发生。”这是英伟达高级研究科学家 Jim Fan 在社交媒体上发出的感慨。

就在最近，这家一年多前还名不见经传的中国 AI 公司，以其新发布的推理大模型 R1 在全球 AI 界掀起了一场风暴。这个模型不仅在性能上比肩甚至超越了 OpenAI 的 o1，并完全开源，且以极低的成本实现了这一突破。这一事件迅速触动了美国科技界的神经。

微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言：“DeepSeek 新模型的表现令人印象深刻，尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”Scale AI 的 CEO Alexandr Wang 甚至将其称为一款“震撼世界的模型（earth-shattering model）”。“我们发现 DeepSeek...... 的性能与美国最好的模型不相上下。”

事实上，DeepSeek-R1 的出现确实引发了硅谷的一场小型地震。沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已：“DeepSeek 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特”。著名风险投资人、Mosaic 浏览器联合发明人马克·安德森也表示：“DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一，作为开源项目，这是给世界的一份重要礼物。”这种开源精神甚至让一位软件工程师将“OGOpenAI.com”域名重定向到了 DeepSeek，以此暗示 DeepSeek 更像早期的 OpenAI，践行着开源 AI 的理念。

最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料，DeepSeek 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道：“工程师们正在疯狂地分析 DeepSeek，试图从中复制任何可能的东西。这一点都不夸张。”更令他们担忧的是，“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 DeepSeek-V3 的成本还要高，而我们有好几十个这样的‘领导’时，他们要如何面对高层？”

尽管 Meta 的首席 AI 科学家 Yann LeCun 强调，这不应被解读为“中国在 AI 领域超越美国”，而是“开源模型正在超越专有模型”。然而，扎克伯格随后的举措还是暴露了 Meta 的焦虑：宣布加速研发 Llama 4，计划投资 650 亿美元扩建数据中心，并部署 130 万枚 GPU 以“确保 2025 年 Meta AI 成为全球领先模型”。

艾伦人工智能研究所的研究科学家 Nathan Lambert 称，“在这一点上，Meta 绝非个例”他认为，R1 的发布标志着推理模型研究的一个重要转折点。在此之前，推理模型一直是工业研究的重要领域，但缺乏一篇开创性的论文。就像 GPT-2 对预训练的重要性，或者 InstructGPT 对后训练的影响一样，我们一直在等待一个推理模型研究的里程碑。Lambert 指出：“推理研究和进展现在已经锁定——预计 2025 年将有巨大的进展，而且更多将是公开的。”

那么，是什么让 DeepSeek-R1 如此特别？R1-zero 采用的训练策略证明了仅通过强化学习（RL，Reinforcement Learning），无监督式微调（SFT，Supervised Fine-Tun-ing），大模型也可以有强大的推理能力。Hyperbolic 联合创始人兼 CTO Yuchen Jin 将这一突破与 AlphaGo 进行类比：“就像 AlphaGo 使用纯 RL 下了无数盘围棋并优化其策略以获胜一样，DeepSeek 正在使用相同的方法来提升其能力。2025 年可能会成为 RL 的元年。”

不过，R1-Zero 在可用性方面存在的一些小问题表明，要训练出一个出色的推理模型，需要的不仅仅是大规模的 RL。

在 R1-Zero 的基础上，团队针对 R1 采用了一个四阶段的训练方案：首先是对合成推理数据进行“冷启动”监督微调；其次是对推理问题进行大规模强化学习训练，直到收敛；第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样，开始向通用模型过渡；最后是混合推理问题和一般偏好调整的强化学习训练。这个过程不仅实现了高效的训练，还保持了模型的可读性和最终性能。

更关键的是，DeepSeek 通过创新性的方法，在有限的计算资源下实现了这些突破。正如微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 所说，R1 最令人惊讶的是其工程简单性：“DeepSeek 追求准确的答案，而不是详细说明每个逻辑步骤，这显著减少了计算时间，同时保持了高效率。”

尽管 R1 备受关注，DeepSeek 仍然相对神秘。创立于 2023 年 7 月的 DeepSeek 一直是一家低调的公司。公司创始人梁文锋毕业于浙江大学信息与电子工程专业，此前创立了管理约 80 亿美元资产的对冲基金幻方量化（High-Flyer）。与 OpenAI 的 Sam Altman 类似，梁文锋的目标也是构建通用人工智能（AGI）。

DeepSeek 的成功与其独特的发展策略密不可分。在美国实施芯片出口管制之前，梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道，公司库存超过 1 万块，而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块。这种前瞻性的布局为该公司的技术突破奠定了基础。

更重要的是，面对芯片限制，DeepSeek 将挑战转化为创新机遇。美国西北大学计算机科学博士生、前 DeepSeek 员工 Zihan Wang 告诉《麻省理工科技评论》：“整个团队热衷于将硬件挑战转化为创新机会。”他补充说，在 DeepSeek 工作期间，他能够获得充足的计算资源并有自由进行实验，“这是大多数应届毕业生在任何公司都不会得到的待遇。”

这种创新精神体现在效率的提升上。在 2024 年 7 月接受采访时，梁文锋承认中国公司在 AI 工程技术方面相对落后：“我们必须消耗两倍的计算力才能达到相同的结果。再加上数据效率差距，这可能意味着需要四倍的计算力。我们的目标是不断缩小这些差距。”梁文锋本人也深度参与研究过程，与团队一起进行实验。

而 DeepSeek 最终找到了减少内存使用和加快计算速度的方法，同时没有明显牺牲准确性。

实际上，中国公司在这方面已经形成了某种共识，他们不仅追求效率，而且也在越来越多地拥抱开源原则。阿里云已发布了超过 100 个新的开源 AI 模型，支持 29 种语言，涵盖编程和数学等各种应用。据中国信息通信研究院的白皮书显示，全球 AI 大语言模型数量已达 1,328 个，其中 36% 来自中国，使中国成为仅次于美国的第二大 AI 技术贡献国。

“这一代中国年轻研究者特别认同开源文化，因为他们从中获益良多，”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。

卡内基国际和平基金会的 AI 研究员 Matt Sheehan 则指出：“美国的出口管制反而逼得中国公司不得不想办法提高效率，把有限的算力用到极致。考虑到算力短缺，我们可能会看到更多企业开始抱团取暖。”

“在 AI 行业出现一定的分工是很自然的事情，也更节省资源，”Cao 补充说，“AI 发展得太快了，中国企业必须保持灵活才能适应。”

随着 DeepSeek 等中国公司在 AI 领域的崛起，全球 AI 竞争格局正在发生微妙变化。如果中国公司能够以更低的成本实现同等或更好的性能，而且这些模型还大都开源，美国公司赖以维持的技术优势和高估值可能会受到挑战。这种担忧已经反映在英伟达等 AI 概念公司的股价上，有分析师甚至指出：“事实上，中国量化基金的一群超级天才将导致纳斯达克崩盘，但目前还没有人意识到这一点。”

不过，现在就高呼“中国 AI 已经超越美国”或“遥遥领先”还为时过早。如清华大学计算机系长聘副教授刘知远所说：“DeepSeek 的突破确实证明了中国 AI 通过有限资源的极致高效利用，实现以少胜多的独特优势，中美 AI 差距正在缩小。”

但现在还远未到“胜券在握”的时候。刘知远认为：“AGI 新技术还在加速演进，未来发展路径还不明确。中国仍在追赶阶段，已经不是望尘莫及，但也只能说尚可望其项背。在别人已经探索出的路上跟随快跑还是相对容易的，接下来如何在迷雾中开拓新路，才是更大的挑战。”

从大疆到宇树，再到当红的 DeepSeek，越来越多的中国科技公司成为美国科技界绕不过去的热门话题，一方面体现出中国公司在供应链优势下对成本的极致敏感，这加速了技术民主化的趋势；更体现出技术竞争的魅力，如果切换一下视角则会发现，硅谷这段时间感受到的震撼则是过去两年中国同行的常态。

参考资料：

1.https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

3.https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1

4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/

5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html

排版：嘉鱼、初嘉实

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.