网易首页 > 网易号 > 正文 申请入驻

DeepSeek 这把火,为何烧疼了硅谷?

0
分享至

作者:刘润

来源:刘润(ID:runliu-pub)

很多人在后台给我留言,要我讲讲DeepSeek。这大过年的。本来想睡个懒觉。然后看个电影。然后再睡个懒觉。然后再看个电影。什么也不想写。但是但是但是,DeepSeek实在是太火了。

火到什么程度呢?

美国的一把山林大火,几个星期烧掉了加州2500亿美元。而DeepSeek横空出世,纳斯达克大跌3%,瞬间烧掉了5000多亿。

什么概念?如果把这5000多亿换成百元美刀,用飞机来运到焚烧厂去烧,需要87架满载的空客380。

美国人吓坏了。

可是,DeepSeek这把火,为何烧疼了硅谷?DeepSeek,到底厉害在什么地方?他被高估了吗?有人指责DeepSeek“偷窃”,是真的吗?

今天。我们就来聊聊这件事。从哪里开始呢?就从美国人为什么这么怕开始。这种怕,源于心中的一根刺。一根针不能碰,一碰就疼的针。

这根刺的名字叫:斯普特尼克时刻。

01

斯普特尼克时刻

1957年10月的一天,很多美国人走出家门,惊恐地望向天空。他们听说,(前)苏联人发了一颗“篮球”上天,绕着地球飞行。时速29000公里。他们试着用肉眼,寻找这颗不断在他们头顶上绕圈的“篮球”。

这颗“篮球”的名字,就叫斯普特尼克(sputnik)。它当然不是篮球。它是一颗人造卫星。

人类历史上第一颗人造卫星。

人类历史上第一颗人造卫星,“居然”不是自己发射的。美国人很难接受。你能想象吗?这就像连续三年的全年级第一,突然发现清华唯一提前录取的,不是自己。

斯普特尼克号卫星,就像一根刺一样,扎痛了那一代美国人。

然后,美国正式成立了NASA(美国航天局),并举全国之力完成了登月。这才拔掉了心头那根叫“斯普特尼克”的刺。

68年后的今天,DeepSeek让美国人看到了另一个“斯普特尼克”时刻。


02

大模型届的拼多多

你试过DeepSeek了吗?

赶快去试试。真不错。推理能力,直逼OpenAI的ChatGPT o1。而且,不用翻墙。不用美国信用卡。也不用担心,因为不慎被发现是中国用户,而被系统“歧视性”封号。太扬眉吐气了。

但这都不是最重要的。最重要的是:DeepSeek实在是太太太便宜了。

ChatGPT o1完成一次训练的成本,据说要上亿美金。而DeepSeek,只需要不到600万美金。

1/20。便宜到不敢相信。

这就像有人指着一台20万的新能源车,说1万卖给你。便宜到难以置信。你忍不住问,这台是不是只会唱:爸爸的爸爸是爷爷?

美国科技界迅速对DeepSeek做了各种评测。然后,震惊了。这个“大模型届的拼多多”,推理能力真和ChatGPT o1非常接近。

随即,英伟达股票大跌17%。原来,训练一个模型,并不需要像你们说的那么多GPU啊。DeepSeek,居然做到了所有硅谷科技巨头都没做到的事。

那么,DeepSeek,到底是怎么做到的呢?

被“逼”的。被“年级第一”的“小院高墙”策略逼的。


03

小院高墙

2018年,美国首次提出对华科技防御策略:小院高墙。关系到美国国家安全的“小院”(半导体和微电子,量子信息技术,和人工智能等等),对中国建设“高墙”(出口管制,限制签证,和审查投资等等)。

随后,2022年,美国开始禁止英伟达对中国出口高端GPU。这些GPU,对训练AI大模型至关重要。

为什么啊?好好做朋友不行吗?不做朋友,做生意也行啊。公平竞争,共谋发展。有必要这么藏着掖着防着吗?

哎。你不理解“年级第一”的心态。

在一个班里,倒数第一和倒数第二,一般都是铁哥们。但是正数第一和正数第二,基本都是死对头。

以前我帮你辅导作业,是因为你是后进。你进步我很高兴。可是万万没想到,你居然不识好歹,才帮了几天你就想取代我的“年级第一”了。这怎么行。橡皮是我的。GPU也是我的。以后再也不借给你了。

这就是“年级第一”的心态。

那怎么办呢?就这么认输吗?没有GPU,怎么训练AI模型呢?

创新。

资源无限的时候,不需要创新。真正的创新,都发生在匮乏的时候。

比如:混合专家系统。


04

混合专家系统

混合专家系统,也就是Mixure of Experts。简称MoE。

我们去医院看病。医院的50个医生,每个都是最好的全科医生。内科、外科、儿科、心血管科、脑科、甚至妇科。什么都懂,什么都能治。这当然最好。但这样的成本实在是太高了。因为每个医生可能都要30年才能毕业。

这就像大模型。一个模型,有50个博士学位,能回答所有问题。这当然好。但是实在是太烧GPU了。

而且,GPU都在美国的小院里。我没有啊。怎么办呢?

也许你可以试试,把医院分成不同的科室。内科的只管内科,外科的只管外科。这样,“训练”医生难度不就降低了吗?

用50个便宜的专科医生,取代一个昂贵的全科医生。然后,再设一个导诊台,根据病情,把患者分配给不同的医生,问题不就解决了吗?

这就是混合专家系统。

混合专家系统,大大降低了AI的训练成本。


05

强化学习

训练大模型还有一项重要的成本,是人工打标签。

这张照片,是只小狗。那张照片,是只小猫。清楚标记出来,人工智能才不会学错。用人工标签,监督AI的学习过程。这就是“监督学习”(Supervised Learning)。

“监督学习”,给很多第三世界国家,创造了大量工作岗位。所以有句开玩笑的话:

有多少“人工”,就有多少“智能”。

那这个成本,能不能也省了呢?

孩子学习走路的时候,可没有用什么打标签的照片吧。这个姿势是正确的,那个姿势是错误的。孩子,请按照片上的姿势走。从来没有吧。

那孩子是怎么走路的?就是只管走就好了。摔倒了屁股会疼。走好了妈妈会抱。孩子会根据这种惩罚和奖励的反馈,不断自动调整姿势,直到终于在一个瞬间,就突然会走路了。

这就是:强化学习。Reinforcement Learning。简称RL。用激励函数,而不是打标签的数据,来学习。从而大大降低训练成本。

MoE+RL。

真不容易。为什么美国人没有先做出来?

因为他们不缺GPU啊。很多创新,都是被“逼”出来的。

DeepSeek还有一个独特之处,那就是:开源。


06

开源

有一个挺讽刺的事。你已经知道了吧。OpenAI,其实并不Open。

什么,你还不知道?那听我和你好好说说。

ChatGPT 2.0之前,OpenAI是开源的。模型的代码和权重,是对所有人公开的。但自从ChatGPT 3.0开始,OpenAI选择了闭源。“OpenAI”变为了“CloseAI”。

其实,这也可以理解。训练大模型实在是太烧钱了。逐渐大家也开始接受了:想要高质量的模型,就要选择闭源。

直到,DeepSeek R1出现。并且开源。

可是,就算你的成本很低,只有OpenAI的1/20,也没必要开源吧?毕竟你也要活下去啊?你开源,图什么啊?

图:生态。

我只有200个工程师。就算他们全是浙大、北大、清华毕业,也只有200个人。这点人手,根本无法和微软、谷歌、OpenAI比。

那怎么办?团结整个开发者生态。

我把所有的研究成果,模型代码和权重,都免费公开给全世界。这样,就会吸引大量开发者,来使用我的模型,测试我的模型,改进我的模型。

代码很重要。但是生态更重要。

用代码换取整个生态的帮助,可能才是对抗巨头们的唯一方法。

明白了。可是,那你怎么活下去呢?

别担心。开源大模型,也能赚钱。


07

开源也能赚钱

开源大模型,至少有三种赚钱的办法。

第一种,是“双代码模式”。

免费公开的基础代码。这对大部分人来说够用了。但是对于一些大型企业来说,他们希望有的权限管理,分级管理,等等各种“高级能力”,可以收费。

第二种,是“保险费模式”。

是代码,就会出问题。大公司对服务的稳定性、响应的及时性,要求很高。所以,大公司很可能会购买“保险”服务,确保遇到问题时,会有人会处理。

第三种,是“云服务模式”。

而对中小企业和个人,可以像用水和用电一样,直接调用DeepSeek的API,使用DeepSeek的云端“智能资源”,然后按“度”(百万token)付费。

不管是开源,还是闭源。只要创造了价值,都能赚到钱。所以,不用为DeepSeek担心。

也不用为英伟达担心。


08

杰文斯悖论

DeepSeek这个“大模型届的拼多多”横空出世。英伟达股票当天暴跌17%。投资人担心大家不再需要那么多GPU了。

其实,大家不用太担心。给你讲个故事。

1776年,瓦特改良了蒸汽机。瓦特蒸汽机,比老式蒸汽机,节省2/3的煤炭。于是人们欢呼:煤炭的消耗,将从此大大减少。

但实际情况,恰恰相反。英国经济学家杰文斯发现,蒸汽机的效率提高了10倍的同时,煤炭的消耗量不但没有下降,反而上升了100倍。

为什么呢?

因为蒸汽机效率提升后,原来用不起煤炭的人,觉得自己用得起了。于是纷纷办厂。工厂数量的激增,反而引起煤炭用量的剧烈反弹。

这就是著名的“杰文斯悖论”。

英伟达的显卡同理。

DeepSeek大大提升了GPU的使用效率。这在短期内,可能会导致GPU的用量下降。但很快,就会有更多人因此加入模型训练阵营,从而导致显卡的需求激增。

果然。懵了的纳斯达克,第二天就清醒了过来。英伟达股票回涨了8%。

回过神来后,在一片赞叹声中,也逐渐出现了各种质疑和批评。

比如:蒸馏。


09

蒸馏

美国白宫顾问David Sacks公开表示,有“实质性证据”证明,中国AI公司DeepSeek“蒸馏”(distill)了OpenAI模型。他把这种“蒸馏”行为,比作“偷窃”。

嗯……打不过,就诬陷吗?“蒸馏”这个指控,很严重啊。

首先解释一下,什么是“蒸馏”?

有两个模型。一个老师模型(teacher model),一个学生模型(student model)。学生不断向老师提问,并把“问题-答案”记录下来。然后用这些“问题-答案”的数据,来训练学生,从而让学生拥有和老师非常接近的知识和能力。这就叫:蒸馏。

这就是蒸馏啊?可是,学生向老师学习,也没什么问题吧?

是的。学习是没什么问题。但是,ChatGPT的用户协议里明确写着,不允许用我的模型,来训练新的模型,尤其是训练用来和我竞争的模型。也就是说,禁止蒸馏。用ChatGPT,就要遵守ChatGPT的使用协议。这是诚信问题。

另外,牛顿花了30年创造了万有引力定律。我花了3天学会了万有引力定律。虽然结果是,我们都懂了万有引力定律。但是,我不能用我的3天,去嘲笑牛顿的30年。

所以,David的这个“蒸馏”指控,还是挺重的。

那么,我亲爱的读者朋友,你相信DeepSeek蒸馏了ChatGPT的模型吗?

我确实不知道。我希望没有。因为如果真有,那这篇文章前面所有文字,可能有部分就白写了。

如果真的没有,DeepSeek,我希望你能你起诉David。请求法院罚他赔偿1美元。加在小红书上连续道歉30天。

这样的污蔑,太欺负人了。


10

曼哈顿计划 2.0

DeepSeek这把火,为何烧疼了硅谷?

用游戏科学的创始人冯骥的话来说:因为这是一个“国运级”的机会。

为什么?因为AI不是一项普通的技术。它是一门能改变几乎所有其他技术的技术。

哪个国家能率先实现通用人工智能(AGI),也许谁就能率先解决材料科学问题(武器更先进),率先解决蛋白质问题(医疗更先进),率先解决可控核聚变问题(能源更先进),以及其他很多问题。

这也是为什么,美国人把AI称作曼哈顿计划 2.0。

上个世纪,美国人发誓,一定要比德国人先研发出原子弹。这项计划,就叫做作:曼哈顿计划。现在,他们一定要比中国人先实现通用人工智能。甚至不惜各种封锁。

哎。至于吗。一起发展不好吗?必须对中国封锁吗?

我用这个问题问AI。

中国的DeepSeek给我的回答是:

否。技术竞合催生共赢,封锁反噬创新生态。

说得真好。

而美国的ChatGPT给我的回答是:

否。但出于竞争与安全考量,美国可能选择部分领域封锁以维护技术优势。

嗯。果然是美国的GPT。

THE END

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

观察鉴娱
2026-05-31 19:01:32
张元英上海签售穿小吊带平底鞋,身材绝美又可爱!

张元英上海签售穿小吊带平底鞋,身材绝美又可爱!

白宸侃片
2026-06-01 10:13:41
张雪机车收获两个第8名,张雪发文反对车手德比斯揽责:“知道短板了就改进,相信下一代赛车更强”

张雪机车收获两个第8名,张雪发文反对车手德比斯揽责:“知道短板了就改进,相信下一代赛车更强”

都市快报橙柿互动
2026-06-01 08:57:58
俄军前线两天损失近3000人,梅德韦杰夫威胁与欧洲开战

俄军前线两天损失近3000人,梅德韦杰夫威胁与欧洲开战

山河路口
2026-05-31 23:31:23
张学良送蒋介石回南京是幼稚?毛主席道破天机:不去,内战停不了

张学良送蒋介石回南京是幼稚?毛主席道破天机:不去,内战停不了

小港哎历史
2026-06-01 08:30:07
活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

火山詩话
2026-06-01 09:44:58
德国拒绝签字,西班牙反水:一批欧盟国家的经济命脉早已连通中国

德国拒绝签字,西班牙反水:一批欧盟国家的经济命脉早已连通中国

浪子阿邴聊体育
2026-05-31 11:01:27
“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

风月得自难寻
2026-05-30 21:04:17
新华社下场,耿同学又抛出4条大鱼!

新华社下场,耿同学又抛出4条大鱼!

仕道
2026-05-30 09:52:28
吴官正:难忘那夜的秋雨

吴官正:难忘那夜的秋雨

坦腹斋
2018-09-01 16:32:58
央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

科技处长
2026-05-31 16:53:35
郑丽文启程访美,“反独”成共同语言,港媒:民进党“抹红”无效

郑丽文启程访美,“反独”成共同语言,港媒:民进党“抹红”无效

海峡导报社
2026-06-01 07:10:03
事态升级!全网紧急下架林志玲作品,20 年内娱生涯彻底归零

事态升级!全网紧急下架林志玲作品,20 年内娱生涯彻底归零

未曾青梅
2026-05-29 22:26:21
Meta股价跌近23%,AI投入是深渊还是金矿?

Meta股价跌近23%,AI投入是深渊还是金矿?

野生运营
2026-05-31 03:41:51
Lisa怀了驴老三的孩子!?

Lisa怀了驴老三的孩子!?

八卦疯叔
2026-06-01 10:27:11
中国科学院地理科学与资源研究所原副所长周成虎被查

中国科学院地理科学与资源研究所原副所长周成虎被查

新京报
2026-06-01 10:25:05
俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

混沌录
2026-05-29 23:26:12
争口气吧!再过2年,三星和SK凯力士两家企业利润,或将超中国所有国企利润总和

争口气吧!再过2年,三星和SK凯力士两家企业利润,或将超中国所有国企利润总和

回旋镖
2026-05-31 20:50:31
中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

社保小达人
2026-06-01 11:03:56
太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

火山詩话
2026-05-30 17:59:42
2026-06-01 13:12:49
互联网思维 incentive-icons
互联网思维
每天推送精选互联网圈深度文章
6104文章数 87235关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

本地
健康
手机
亲子
游戏

本地新闻

用剪纸的方式,打开江苏扬州

尝试干细胞疗法如何避免踩坑?

手机要闻

小米17系列即将突破500万销量,国产安卓第一人有意见吗?

亲子要闻

深夜时谈 杨澜:内在的价值感,是父母给予孩子最好的礼物

曝《逆转裁判》新作开发中!有望今年公布

无障碍浏览 进入关怀版