网易首页 > 网易号 > 正文 申请入驻

做出一家让硅谷都震撼的“国货之光”,需要多聪明?

0
分享至

提问:前几天,不管在中国还是在美国,你有没有刷到过一家中国公司,做AI的,叫DeepSeek?

昨天刚开完会,公司一个小伙伴突然来精神了,说:

“欸,那个前几天很火的DeepSeek居然出APP了。”

一搜,还真有。

真低调。

可低调的背后,是一口气刷了中国的屏,还刷了美国的屏的爆火。

2025刚开始那几天,国内突然出了个热搜:

“雷军千万年薪,挖角DeepSeek的核心研究员,95后AI天才少女罗福莉”。

很多人在这句话里,看到了“雷军”,看到了“千万年薪”,看到了“95后AI天才少女”。但其中很多关注AI的人,还看到了:“DeepSeek”

因为,在更早的圣诞期间,这家中国的,做AI的,甚至不是大厂的公司,突然刷了美国的屏。

2024年12月26日 ,中国的AI公司DeepSeek(中文名叫“深度求索”),发布了一个最新AI大模型DeepSeek-V3,并同步开源。

很快,无论是中国的AI圈,还是硅谷的大佬,美国的新闻,都开始谈论它。

国内很多媒体喊它“中国AI界拼多多”,“国货之光”。说,它证明了“就算算力被封锁,中国也有可能搞出很好用的大模型”

而在国外,在硅谷,更多人喊它“来自东方的神秘力量”。说,这下“美国从0到1,中国从1到N”的说法,可能要被破了......

这个突然横空出世的中国AI公司,真那么厉害吗?厉害在哪?怎么做到的?到底什么来头?

我也很好奇。这几天看了一些资料,也问了一些行业里的朋友。越了解,我越有一种感觉:

刷屏美国的DeepSeek,不一定“神秘”,但确实有点聪明。

提问:当美国在刷屏聊这家公司的时候,都在聊什么?

抛开各种一会儿“震惊”,一会儿“难以置信”的那些情绪不说,事实说来说去,大概就是4件事。

首先,性能,吓人的好。

DeepSeek的大模型,很多科目在跑分测试中,都一举超越了很多头部的开源模型。

如果单看“理科”,比如代码编写和数学运算方面,更是直接可以上手,和全球顶尖的闭源模型掰手腕。

比如OpenAI的GPT-4o,Meta的LLama-3.1-405B,阿里Qwen2.5-72B......

这么强,价格,还吓人的低。

人家美国的大模型扛把子,比如Claude 3.5 Sonnet,API价格是每百万输入token3美元。国产的DeepSeek-V3呢?优惠狠起来,只要0.1元人民币。

这么恐怖的性价比,怎么做到的?

梁文锋曾在暗涌的采访中说:“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

吓人的性价比背后,是低得更吓人的成本。

先大概看个账单:

DeepSeek-V3的预训练过程,花了557.6万美元,耗费了280万GPU小时,2048块GPU,并且还是英伟达针对中国市场的低配版:H800 GPU。

那别人呢?很多财经新闻指出,OpenAI,谷歌,Meta,都花 了数亿,甚至数十亿美元。

而OpenAI的早期成员Andrej Karpathy在社交平台上说:“要做到这种水平,通常需要3080万GPU小时,和16000块GPU。”

280万,2048块,几百万美元。

3080万。16000块。几亿甚至几十亿美元。

直接差出1个零,甚至几个零。

难怪Meta AI研究科学家田渊栋发文说:“对DeepSeek-V3'极有限的预算'和'强劲的表现'深感惊喜。”

然而,到这里,依然还不是让他们最“惊”的。

美国的CNBC主播在新闻里说:“这家公司的大模型,在很多方面都不输于Meta的LLaMa 3.1和OpenAI的GPT 4o,顺便说一下,这些都是最新最强的模型......并且,朋友们,别忘了这个事实:这家公司来自中国。

超高性能,超低价格,超低成本,还是来自中国的AI公司。

很快,在硅谷,DeepSeek开始被这么提起:

“来自东方的神秘力量”。

“小院高墙”

这个突然横空出世的中国AI公司,到底,什么来头?

是不是,背后有高人?

OpenAI的前政策主管Jack Clark就曾说:DeepSeek“雇佣了一批高深莫测的奇才”。

而DeepSeek创始人梁文锋在一次采访里对此的回应是:“并没有什么高深莫测的奇才。都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”

那,是不是,背后有资本?

毕竟,做大模型,从来都是少数人的游戏。

有新闻披露,在很多普通人都还没听说过AI的2019年,DeepSeek就已经囤了超过1万张的英伟达显卡,用于算力基建了。

真厉害。但是,有超过1万张,就足以让DeepSeek有优势吗?光看2024年一年,拥有的等效H100GPU数量,Meta,是55万-65万,微软,是75万-90万。谷歌,更是100万-150万......

人,钱,都没有什么特别的。那,东方,还有什么西方没有的?

“小院高墙。”

这个2018年由美国智库提出的科技防御策略,衍生出来的新闻,关键词基本都长这样:

管制,禁运,封锁,实体清单......

在美国CNBC的一个采访中,一位连线专家在聊起DeepSeek时说:

“显然,他们没有使用最新的芯片,也没有那么大的算力,他们甚至在这方面没怎么花钱,但他们却建立了一个可以和OpenAI和Meta的模型竞争的模型。”

“他们是在哪个地方做得这么好呢?”

很多人,开始连夜翻技术文档。

是的。被称为“来自东方的神秘力量”的DeepSeek,在最核心的技术上,却一点都没有玩神秘:

他发布的大模型,都是开源的。

每一步,怎么做的,什么原理,甚至代码,都写在公开的技术文档里。

所有人,随便看。

“技术文档”

DeepSeek的技术文档,一共53页。

翻开,不是长这样:

就是长这样:

啊?这怎么看?

我明白。我理解。这样一份文档,对于大多数普通人来说,确实难啃。

好在,很多技术大牛,已经连夜划了重点。

比如,最常见的这段:

这得益于采用了 Multi-head Latent Attention ( MLA ) 和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多 token 预测训练目标,提升了模型性能。同时,在14.8万亿个高质量 token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。

看着还是太干?没事儿,再划成3个关键词:

MoE,MLA,无辅助损失的负载平衡策略和多令牌预测训练目标。

这,就是要看懂DeepSeek的“神秘力量”,至少,需要看懂这3个词。

我争取,用普通话,帮你把它们从头说一遍。

我猜,听完你会觉得很眼熟。

从哪里说起呢?

就从,你对大模型的要求说起吧。

“神秘力量”

提问:这两年,你有没有用过什么AI大模型?

比如,美国的ChatGPT?中国的文心一言?通义千问?......

你用它的时候,都对它有什么期待?

至少,我问它个什么,它的回答得靠谱吧?靠谱之外,一个回答不能让我等上1分钟吧?......

又快,又好。

这,就是一个好的大模型产品,至少要做到的2件事。

而这2件事,传到做大模型产品的技术专家的耳朵里,就会自动被翻译成另外2个词:

大模型的复杂度,大模型的推理效率。

什么是复杂度?至少,这个大模型的脑子得足够聪明,能应对足够多,足够复杂的问题。

脑子要聪明,要多几根“筋”。大模型要聪明,就得多几亿个“参数”。

这次发布的DeepSeek-V3大模型,参数就有6710亿个。

真多。可是,这么多“脑筋”一起动,得多费劲啊?

确实费劲。所以,得烧钱,买卡,堆算力......

但是,你都看见了。DeepSeek没这么干。它们干了很多其它的。

其中,最常被人提到的,是这3件:

第一,把一堆“专家”给分开。

想象一下,大模型,就像一个专家大本营。为了能尽可能地帮你干各种活儿,里面驻扎了各种领域的专家。

每次你一派活儿,就要呼啦啦地召唤这个专家大本营。很是劳师动众。

DeepSeek,做了一点优化:把专家们分门别类,每次有活儿,只喊其中一组相应的专家团出来就好。

这,就是MoE架构,也叫混合专家技术。

这么分,本来每次有活儿,得惊动6710亿个参数,现在只要37亿个参数就可以了。多省力。

真聪明。可是,一个大模型,就算调的专家少了,每天要干的活儿还是超级多。有没有办法更省力?

DeepSeek又想到了个办法:把要干的活儿,压少一些。

比如,搞个东西,让模型可以在干活儿时,学会“抓大放小”。精确到“元”就够的,就绝不精确到“毛”。大不了算完再派个专家,统一验算一遍。

这个东西,就叫MLA,也叫信息过滤器。能让模型只关注信息中的重要部分,不会被不重要的细节分散注意力。

有意思。这么一来,对算力的依赖肯定又能少好多。

可DeepSeek依然没满足。“专家”和“活儿”都盘了,那中间的“派活”呢?

我能不能再搞个机制,让每个专家,都能被合理分工。不至于要么给我闲着,要么忙到爆炸?

于是,就有了:无辅助损失的负载平衡策略和多令牌预测训练目标。

现在,再看回这3个词,你什么感觉:

MoE,MLA,无辅助损失的负载平衡策略和多令牌预测训练目标。

分专家,压活儿,合理分工。

嗯,很聪明。可是,不是在说“神秘力量“吗?

这算什么神秘力量?


“工程”

提问:怎么才算“神秘力量”?

能突破“小院高墙”?能打破“国外从0到1,中国从1到N”的观念,带来颠覆性创新?

如果是这个标准,那OpenAI创始人奥特曼,可能觉得,不算。

在DeepSeek大模型发布后,他曾说:

“DeepSeek-V3,只是在复制已知有效的东西。但当你不知道某件新奇、有风险且困难的事情是否会成功时,去做他是极其困难的。”

为什么这么说?是不是在酸?是不是在内涵?

这样,不如我们先简单倒个带:

你说,“把一堆‘专家’给分开”,算不算创新?

你说,“把要干的活儿,压少一些”,算不算创新?

你说:“把活儿分派得合理些”,算不算创新?

或者更直接一点:“用几百万的成本,做到人家花几十亿才做到的事”,算不算创新?

看另一个技术大佬,知名AI博主Tim Dettmers,对DeepSeek的评价。

他说:“这是资源限制下的工程。

他还说:“这一切看起来都那么优雅:没有花哨的‘学术’解决方案,只有纯粹的,扎实的工程。尊重。”

工程,工程。

什么是工程?

直接搜“工程”,你会看到这个定义:

“工程是一个具有规定开始和结束时间的任务,需要使用一种或多种资源,并由多个互相独立、互相联系、互相依赖的活动组合。”

但如果,当你收到客户投诉“收到的薯片有包装是空的”时,别人会和你说:

“装监控”,“做视频识别”,或者,“花100万,研发一条新的流水线”......

但工程师,可能会和你说:

“花100块,在现在的流水线最后,装个大吹风机,吹出刚好能吹跑空包装的就行。”

工程,就是就算在有限资源下,也一定要把事做成,并且还要把效率做到最高。

回看DeepSeek的创新,有些,确实是独创。比如,无辅助损失负载均衡,就来自DeepSeek八月的论文。

也有些,是“在已有的流水线上装上吹风机”。比如,优化前就已经存在的MoE,MLA......

花100万做个新流水线,花100块加个大吹风机。

从0到1,从1到N。

刷屏美国的DeepSeek,不一定神秘,但确实聪明。

恭喜。

也祝福,2025年,更多的“从1到N”,和,“从0到1”。

*个人观点,仅供参考。
主笔/ 尤安/ 二蔓版面/ 黄静

这是刘润公众号的第2489篇原创文章

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人伦崩塌,谁在毁掉我们的家庭?

人伦崩塌,谁在毁掉我们的家庭?

青苹果sht
2026-03-07 05:52:19
刘诗诗直播美的好权威,金丝眼镜+大波浪造型,让她美的发光了

刘诗诗直播美的好权威,金丝眼镜+大波浪造型,让她美的发光了

明星私服穿搭daily
2026-03-05 07:24:32
伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

闪电新闻
2026-03-07 14:00:07
历史由胜利者书写,所以国民党是否因为战败而被丑化了呢?

历史由胜利者书写,所以国民党是否因为战败而被丑化了呢?

大运河时空
2026-03-07 17:45:03
祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

老王说正义
2026-03-07 07:47:38
特朗普:伊朗“今天将遭到极其猛烈的打击”

特朗普:伊朗“今天将遭到极其猛烈的打击”

新华社
2026-03-07 19:52:04
吃相难看!迪丽热巴被困迪拜事件升级!猛料流出,杨幂体面尽成空

吃相难看!迪丽热巴被困迪拜事件升级!猛料流出,杨幂体面尽成空

阿废冷眼观察所
2026-03-08 03:52:21
两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

谈史论天地
2026-03-07 06:54:29
以军袭击已致黎巴嫩294人死亡1023人受伤

以军袭击已致黎巴嫩294人死亡1023人受伤

界面新闻
2026-03-07 22:00:44
人社部: 将加大对外贸、建筑、住宿、餐饮等劳动密集型行业就业扶持

人社部: 将加大对外贸、建筑、住宿、餐饮等劳动密集型行业就业扶持

证券时报
2026-03-07 10:51:24
特朗普发表声明:伊朗已向其中东邻国投降!这是由于美以的持续攻击才实现的

特朗普发表声明:伊朗已向其中东邻国投降!这是由于美以的持续攻击才实现的

爆角追踪
2026-03-07 21:09:51
伊朗高级官员说伊正在寻找新的美国目标进行打击

伊朗高级官员说伊正在寻找新的美国目标进行打击

新华社
2026-03-07 23:44:04
重力炸弹即将大规模上场,波斯面临更大的压力

重力炸弹即将大规模上场,波斯面临更大的压力

高博新视野
2026-03-06 17:49:29
西贝再暴大雷!总部人去楼空,新任领导威逼员工,300人讨薪无门

西贝再暴大雷!总部人去楼空,新任领导威逼员工,300人讨薪无门

离离言几许
2026-03-07 15:53:37
古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

扶苏史记
2026-03-07 15:16:48
深度揭秘 | 受贿5401万余元,上海市徐汇区委原书记鲍炳章,获刑14年!揭发他人犯罪,具有立功表现

深度揭秘 | 受贿5401万余元,上海市徐汇区委原书记鲍炳章,获刑14年!揭发他人犯罪,具有立功表现

一分为三看人生
2026-03-08 00:07:21
韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

老特有话说
2026-03-06 21:52:34
伊朗这场仗,已经卷入了18个国家

伊朗这场仗,已经卷入了18个国家

凤眼论
2026-03-07 07:52:20
突然爆火!超多人抢着要,上门服务500元一次,有人称赚了26万,专家:先冷静……

突然爆火!超多人抢着要,上门服务500元一次,有人称赚了26万,专家:先冷静……

浙江之声
2026-03-07 14:01:40
商务部:如再次引发全球半导体产供链危机,荷方必须对此承担全部责任

商务部:如再次引发全球半导体产供链危机,荷方必须对此承担全部责任

每日经济新闻
2026-03-07 21:14:20
2026-03-08 05:47:00
刘润 incentive-icons
刘润
刘润,润米咨询创始人,“5分钟商学院”课程主理人,著名商业顾问
4803文章数 24697关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
数码
本地
时尚
公开课

艺术要闻

吴冠中:笔墨等于零

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

2026春夏一定要拥有的6只包,好看又百搭

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版