网易首页 > 网易号 > 正文 申请入驻

硅谷不眠夜:DeepSeek为何震动美国科技界?

0
分享至

DeepSeek 给硅谷带来的震撼还在持续,并不见降温的迹象。如果和几个月前的《黑神话·悟空》在欧美受到的追捧相比,DeepSeek 的出现可谓是“石破天惊”,充满了各种不可能、不合理。它讲述了一个如何在层层封锁、劲敌环伺的背景下铁树生花的故事,让美国精心设置的人工智能技术小院高墙展现出了坍塌的风险。

“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。”这是英伟达高级研究科学家 Jim Fan 在社交媒体上发出的感慨。

就在最近,这家一年多前还名不见经传的中国 AI 公司,以其新发布的推理大模型 R1 在全球 AI 界掀起了一场风暴。这个模型不仅在性能上比肩甚至超越了 OpenAI 的 o1,并完全开源,且以极低的成本实现了这一突破。这一事件迅速触动了美国科技界的神经。


图丨Google 新闻首页推荐内容(来源:Google)

微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言:“DeepSeek 新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”Scale AI 的 CEO Alexandr Wang 甚至将其称为一款“震撼世界的模型(earth-shattering model)”。“我们发现 DeepSeek...... 的性能与美国最好的模型不相上下。”


图丨 Alexandr Wang 相关采访(来源:CNBC)

事实上,DeepSeek-R1 的出现确实引发了硅谷的一场小型地震。沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已:“DeepSeek 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特”。著名风险投资人、Mosaic 浏览器联合发明人马克·安德森也表示:“DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。”这种开源精神甚至让一位软件工程师将“OGOpenAI.com”域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,践行着开源 AI 的理念。


图丨相关推文(来源:X)

最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料,DeepSeek 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道:“工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。”更令他们担忧的是,“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的‘领导’时,他们要如何面对高层?”

尽管 Meta 的首席 AI 科学家 Yann LeCun 强调,这不应被解读为“中国在 AI 领域超越美国”,而是“开源模型正在超越专有模型”。然而,扎克伯格随后的举措还是暴露了 Meta 的焦虑:宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以“确保 2025 年 Meta AI 成为全球领先模型”。


(来源:Facebook)

艾伦人工智能研究所的研究科学家 Nathan Lambert 称,“在这一点上,Meta 绝非个例”他认为,R1 的发布标志着推理模型研究的一个重要转折点。在此之前,推理模型一直是工业研究的重要领域,但缺乏一篇开创性的论文。就像 GPT-2 对预训练的重要性,或者 InstructGPT 对后训练的影响一样,我们一直在等待一个推理模型研究的里程碑。Lambert 指出:“推理研究和进展现在已经锁定——预计 2025 年将有巨大的进展,而且更多将是公开的。”

那么,是什么让 DeepSeek-R1 如此特别?R1-zero 采用的训练策略证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。Hyperbolic 联合创始人兼 CTO Yuchen Jin 将这一突破与 AlphaGo 进行类比:“就像 AlphaGo 使用纯 RL 下了无数盘围棋并优化其策略以获胜一样,DeepSeek 正在使用相同的方法来提升其能力。2025 年可能会成为 RL 的元年。”

不过,R1-Zero 在可用性方面存在的一些小问题表明,要训练出一个出色的推理模型,需要的不仅仅是大规模的 RL。

在 R1-Zero 的基础上,团队针对 R1 采用了一个四阶段的训练方案:首先是对合成推理数据进行“冷启动”监督微调;其次是对推理问题进行大规模强化学习训练,直到收敛;第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样,开始向通用模型过渡;最后是混合推理问题和一般偏好调整的强化学习训练。这个过程不仅实现了高效的训练,还保持了模型的可读性和最终性能。


(来源:arXiv)

更关键的是,DeepSeek 通过创新性的方法,在有限的计算资源下实现了这些突破。正如微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 所说,R1 最令人惊讶的是其工程简单性:“DeepSeek 追求准确的答案,而不是详细说明每个逻辑步骤,这显著减少了计算时间,同时保持了高效率。”

尽管 R1 备受关注,DeepSeek 仍然相对神秘。创立于 2023 年 7 月的 DeepSeek 一直是一家低调的公司。公司创始人梁文锋毕业于浙江大学信息与电子工程专业,此前创立了管理约 80 亿美元资产的对冲基金幻方量化(High-Flyer)。与 OpenAI 的 Sam Altman 类似,梁文锋的目标也是构建通用人工智能(AGI)。

DeepSeek 的成功与其独特的发展策略密不可分。在美国实施芯片出口管制之前,梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道,公司库存超过 1 万块,而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块。这种前瞻性的布局为该公司的技术突破奠定了基础。

更重要的是,面对芯片限制,DeepSeek 将挑战转化为创新机遇。美国西北大学计算机科学博士生、前 DeepSeek 员工 Zihan Wang 告诉《麻省理工科技评论》:“整个团队热衷于将硬件挑战转化为创新机会。”他补充说,在 DeepSeek 工作期间,他能够获得充足的计算资源并有自由进行实验,“这是大多数应届毕业生在任何公司都不会得到的待遇。”

这种创新精神体现在效率的提升上。在 2024 年 7 月接受采访时,梁文锋承认中国公司在 AI 工程技术方面相对落后:“我们必须消耗两倍的计算力才能达到相同的结果。再加上数据效率差距,这可能意味着需要四倍的计算力。我们的目标是不断缩小这些差距。”梁文锋本人也深度参与研究过程,与团队一起进行实验。

而 DeepSeek 最终找到了减少内存使用和加快计算速度的方法,同时没有明显牺牲准确性。

实际上,中国公司在这方面已经形成了某种共识,他们不仅追求效率,而且也在越来越多地拥抱开源原则。阿里云已发布了超过 100 个新的开源 AI 模型,支持 29 种语言,涵盖编程和数学等各种应用。据中国信息通信研究院的白皮书显示,全球 AI 大语言模型数量已达 1,328 个,其中 36% 来自中国,使中国成为仅次于美国的第二大 AI 技术贡献国。

“这一代中国年轻研究者特别认同开源文化,因为他们从中获益良多,”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。

卡内基国际和平基金会的 AI 研究员 Matt Sheehan 则指出:“美国的出口管制反而逼得中国公司不得不想办法提高效率,把有限的算力用到极致。考虑到算力短缺,我们可能会看到更多企业开始抱团取暖。”

“在 AI 行业出现一定的分工是很自然的事情,也更节省资源,”Cao 补充说,“AI 发展得太快了,中国企业必须保持灵活才能适应。”


图丨相关推文(来源:X)

随着 DeepSeek 等中国公司在 AI 领域的崛起,全球 AI 竞争格局正在发生微妙变化。如果中国公司能够以更低的成本实现同等或更好的性能,而且这些模型还大都开源,美国公司赖以维持的技术优势和高估值可能会受到挑战。这种担忧已经反映在英伟达等 AI 概念公司的股价上,有分析师甚至指出:“事实上,中国量化基金的一群超级天才将导致纳斯达克崩盘,但目前还没有人意识到这一点。”

不过,现在就高呼“中国 AI 已经超越美国”或“遥遥领先”还为时过早。如清华大学计算机系长聘副教授刘知远所说:“DeepSeek 的突破确实证明了中国 AI 通过有限资源的极致高效利用,实现以少胜多的独特优势,中美 AI 差距正在缩小。”

但现在还远未到“胜券在握”的时候。刘知远认为:“AGI 新技术还在加速演进,未来发展路径还不明确。中国仍在追赶阶段,已经不是望尘莫及,但也只能说尚可望其项背。在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。”

从大疆到宇树,再到当红的 DeepSeek,越来越多的中国科技公司成为美国科技界绕不过去的热门话题,一方面体现出中国公司在供应链优势下对成本的极致敏感,这加速了技术民主化的趋势;更体现出技术竞争的魅力,如果切换一下视角则会发现,硅谷这段时间感受到的震撼则是过去两年中国同行的常态。

参考资料:

1.https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

3.https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1

4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/

5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html

排版:嘉鱼、初嘉实

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
克耶高斯谈辛纳只禁赛三个月:网球没有公平,这是悲伤的一天

克耶高斯谈辛纳只禁赛三个月:网球没有公平,这是悲伤的一天

懂球帝
2025-02-15 20:06:21
2013年,山东男子电死外星人将其放在冰箱,真相揭晓后众人傻眼

2013年,山东男子电死外星人将其放在冰箱,真相揭晓后众人傻眼

妮子说美食
2025-02-15 00:24:59
足球报:U20亚洲杯日韩出线无忧,澳大利亚、日本、伊朗优势明显

足球报:U20亚洲杯日韩出线无忧,澳大利亚、日本、伊朗优势明显

雷速体育
2025-02-15 10:58:28
美国加州这一夜,跌落神坛的成龙,向所有人证明了他的江湖地位!

美国加州这一夜,跌落神坛的成龙,向所有人证明了他的江湖地位!

祝晓塬
2025-02-13 21:24:20
特普90分钟通话,俄国家电视台主持人:特朗普在替莫斯科拆碎西方阵营

特普90分钟通话,俄国家电视台主持人:特朗普在替莫斯科拆碎西方阵营

红星新闻
2025-02-15 22:05:09
涉嫌严重违纪违法!福建一厅级干部被查(附简历)

涉嫌严重违纪违法!福建一厅级干部被查(附简历)

鲁中晨报
2025-02-15 16:23:09
看了韩国1月拿下13艘造船订单,再看中国新船订单数,实在想不到

看了韩国1月拿下13艘造船订单,再看中国新船订单数,实在想不到

生活新鲜市
2025-02-15 00:20:07
车主曝某电车高速行驶中起火

车主曝某电车高速行驶中起火

电动知家
2025-02-14 11:01:06
DeepSeek评出的中国性价比最高的大学排名!清华北大没上榜

DeepSeek评出的中国性价比最高的大学排名!清华北大没上榜

阿纂看事
2025-02-10 14:41:17
68岁上海女知青重返云南见初恋,发现自己竟儿孙满堂:我对不起你

68岁上海女知青重返云南见初恋,发现自己竟儿孙满堂:我对不起你

民间精选故事汇
2024-10-09 12:10:06
浙江25岁小伙不得已摘除这器官!只因一年多的习惯……

浙江25岁小伙不得已摘除这器官!只因一年多的习惯……

环球网资讯
2025-02-15 17:17:09
脚后跟脱皮开裂,不一定是皮肤缺水,多半与这5种疾病有关

脚后跟脱皮开裂,不一定是皮肤缺水,多半与这5种疾病有关

DrX说
2025-02-10 12:50:34
纪录不断刷新,《哪吒2》成为31个省份影史票房冠军,19个城市票房过亿

纪录不断刷新,《哪吒2》成为31个省份影史票房冠军,19个城市票房过亿

第一财经资讯
2025-02-15 20:12:12
印度工程师说:熊猫国正在用驴子来增加女性的性兴趣!很奇怪

印度工程师说:熊猫国正在用驴子来增加女性的性兴趣!很奇怪

天行舰
2025-02-15 00:00:07
一觉睡醒!梁文锋的发言又火了!

一觉睡醒!梁文锋的发言又火了!

玲子日记
2025-02-15 09:55:56
听了李幼斌一番话,终于懂为何哪吒2票房百亿,明星却集体"冷落"

听了李幼斌一番话,终于懂为何哪吒2票房百亿,明星却集体"冷落"

火之文
2025-02-14 15:09:25
一夜之间,相声圈的马户、又鸟都蹦跶出来了!

一夜之间,相声圈的马户、又鸟都蹦跶出来了!

阿凫爱吐槽
2025-02-13 14:06:14
WTA1000迪拜站资格赛选手落位,王欣瑜首轮将对阵帕克斯

WTA1000迪拜站资格赛选手落位,王欣瑜首轮将对阵帕克斯

直播吧
2025-02-15 19:48:55
这些股下周危险!本周主力已经“大幅卖出”这些股

这些股下周危险!本周主力已经“大幅卖出”这些股

A股数据表
2025-02-15 15:14:31
《六姊妹》大结局:何家欢成为金融界的名人,最有钱的不是何家艺

《六姊妹》大结局:何家欢成为金融界的名人,最有钱的不是何家艺

笑谈历史阿晡
2025-02-15 09:12:01
2025-02-15 22:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
14830文章数 513322关注度
往期回顾 全部

科技要闻

速度又慢了?字节全员会反思DeepSeek影响

头条要闻

1000元压岁钱存24年 女子如今取出连本带利共1674元

头条要闻

1000元压岁钱存24年 女子如今取出连本带利共1674元

体育要闻

NBA这盘棋终于要下成了

娱乐要闻

台媒曝大S子女监护权归属 徐家接受事实

财经要闻

特朗普大裁员!又“炒”了近万人

汽车要闻

中高配搭激光雷达 宋L EV智驾版18.98万元起

态度原创

亲子
本地
数码
房产
公开课

亲子要闻

老婆和妈妈带杰崽悦悦,小韩给桔树施肥,晚上炒个腊肉下饭,好香

本地新闻

非遗版春节|古法滚元宵,年味儿一口爆浆

数码要闻

绿米 Aqara 智能摄像机 G5 Pro 发布,售价 1299 元起

房产要闻

热度爆表!广州的赢面,依旧很大!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版