网易首页 > 网易号 > 正文 申请入驻

DeepSeek,该卸下扫地僧的枷锁了

0
分享至

我每次翻《天龙八部》,翻到少林寺藏经阁那一段,都要停下来。

萧远山、萧峰父子对上慕容博、慕容复父子,鸠摩智再从旁搅局,三十年的血海深恨搅在一处,眼看就要分出生死。就在这当口,一个枯瘦的扫地僧走了出来。

萧峰的降龙十八掌打在他身上,他虽受内伤吐血,却以浑厚内力生生受之;他举手投足间让慕容博陷入「假死」复又救活,这种生死由心的境界,令在场一众顶尖高手莫不震慑失语。


这一刻,谁强谁弱,答案不言而喻。

AI 圈最近几年,流行把 DeepSeek(深度求索)比作这位老僧。在所有人眼里,AI 赛道的格局早已注定,海外有御三家,国内有大厂和彼时风头正盛的 AI 六小虎,轮不到旁人来置喙。

结果一家做量化交易出身的中国公司,悄没声儿地走出来,用一套从天而降的招法,在各项核心评测上与这帮人正面交手,打得有来有回。


只是,扫地僧出场,是《天龙八部》行将收尾的时刻。他的使命是终结纷争、化解戾气,然后全书走向尾声。可大模型的故事,没有尾声,也没有终章,只有下一回,还有下下一回。

把 DeepSeek 比作扫地僧,是对它过去的最高赞誉,但如果这三个字正在慢慢变成困住它的枷锁,我倒觉得,赞誉和催命符,有时候只在一念之间。

扫地僧是怎么练成的

金庸写扫地僧,从来不正面写他的功夫。他写的是别人的反应,萧峰愣了,慕容复愣了,旁观的人也愣了。高手的境界,要从旁人失语的瞬间才能传递出来。

DeepSeek 的故事,也暗合这个逻辑。

作为杭州的一家对冲基金,外人提到幻方量化,第一反应是期货、是算法交易、是数学天才们盯着屏幕上跳动的数字。这和 AI 大模型,八竿子打不着,却悄悄把一批工程师和研究员聚在一起做大模型。


2023 年 11 月,他们发布首个开源代码大模型 DeepSeek Coder,后续拿出了一个 67B 的语言模型。在官方给出的多项评测中,67B 超过了 LLaMA2 70B,67B Chat 在部分中文和开放式评测中优于 GPT 3.5。只是,圈内少数几个消息灵通的人注意到了,大多数人没注意到。扫地僧还在扫地,少林寺的人都在忙着练少林长拳。

让其开始崭露头角,是 2024 年 5 月 7 日发布的 V2。V2 用的是 MoE(混合专家)架构,总参数 2360 亿,但每次推理实际激活的只有 210 亿。与此同时,V2 首次采用了 MLA(多头潜在注意力)机制,大幅压缩了推理时的显存占用。

两相叠加,让模型在同等效果下,跑得更快,花得更少。用金庸的话来说,这叫以柔克刚,以精妙的内功路数,弥补了真气总量上的不足。


▲ https://arxiv.org/abs/2405.04434

但砸出最大水花的,是定价。V2 的 API 定价,每百万 token 输入 1 元,输出 2 元。GPT-4 Turbo 当时是它的七十倍,Meta 的 Llama3 70B 是它的七倍。一块钱,一百万个 token,大约相当于一本《三国演义》的字数。

这个价格摆出来,让整个国内大模型市场为之色变。当月,字节、阿里、百度、腾讯、讯飞、智谱,一家接一家跳出来宣布降价,最高降幅 97%,部分轻量级模型直接免费开放。

一场持续了大半年的价格战,就这么被 DeepSeek 的一句定价点燃了。那时候,业内给 DeepSeek 送了个外号,价格屠夫。

美国的半导体咨询公司 SemiAnalysis 在那段时间写了一篇分析,说这家公司有可能成为 OpenAI 的对手,也有可能碾压其他开源大模型。当时读到这句话的人,大概有一半觉得是危言耸听。一年多以后回头看,没有人再觉得是危言耸听了。


2024 年末的 V3 和 2025 年初的 R1,则是连续出手的两招,把对手打得目瞪口呆。DeepSeek 用极低的投入,打出了旗鼓相当的效果。

更让人震惊的是参与人数,139 名工程师和研究人员完成了这个项目,而 OpenAI 同期有 1200 名研究人员,Anthropic 有 500 名。Meta 超级智能实验室负责人亚历山大·王后来说了一句被广泛流传的话,当美国人休息时,他们在工作,而且以更便宜、更快、更强的产品追上我们。

紧接着便是是 R1,主打深度推理,数学、代码、逻辑,在相当多的测试维度上与 OpenAI o1 不落下风,训练方法用的是 GRPO 强化学习,靠让模型自己想清楚来提升推理能力。


最要紧的一步是开源。

R1 的开源,被广泛解读为一种慷慨。模型权重、技术论文、训练细节全部公开,全球开发者共享成果。这套叙事里,DeepSeek 是那个敞开藏经阁大门的人,路不拾遗,人人可进。

武功秘籍直接摆桌上,谁想学谁来拿的这一手,也打破了少数几家巨头对前沿模型的垄断,让全球数以万计的中小开发者有了和顶尖模型掰手腕的资格。

金庸写扫地僧,主要抓住几样东西,出身边缘、多年隐匿、一鸣惊人、技法精绝、胸怀坦荡。DeepSeek V2 的价格屠刀、V3 的成本奇迹、R1 的开源普惠,也让人们在 DeepSeek 身上,真真切切地看见了那个老僧的影子。

枷锁,以及枷锁之后

但武侠小说是会结束的,AI 赛道不会。

每次我写 DeepSeek 的文章,底下的评论区都像藏经阁又打了一场架。有人说它安安静静做产品,不收费、不立人设,能用就用,这才是正道。有人说它连国产其他巨头都未必打得过,已经无法搅局。


有人替它抱不平,有人觉得它早就该被淘汰。更有人说,「我们一直以来都没把 DeepSeek 当作优等生,而是当作扫地僧,真心希望它能如我们所愿」,这句话说得又期待,又带着一丝说不清楚的悲凉。


意见如此撕裂,本身就说明了一件事。DeepSeek 所受到的关注,早已超出了一家普通 AI 公司应有的体量。捧它的人把它捧上神坛,骂它的人把它踩进泥里,没有几家公司能在舆论场里同时承受这两种极端。

这篇文章大概也逃不过同样的命运,有人会说这是黑稿,有人会说这是 PR 稿,落个两头不讨好。但这无所谓,舆论从来都是这样,藏经阁里打架,不管谁赢,总有人不服。


说回正题,扫地僧出场那一幕,是《天龙八部》收尾的信号。他出手,纷争平息,故事逐渐走向终章。这个叙事结构,似乎天然就带着一种大结局的气息,英雄横空出世,一招定乾坤,从此江湖太平。

根据《创智记》援引知情人士消息称,按照创始人梁文锋在内部透露的时间,DeepSeek V4 将于四月下旬正式发布。
爽文里的主角,每一章都要有突破,读者翻到下一页,期待的永远是更大的惊喜。

V3 和 R1 用四两拨千斤的逻辑征服了世界,大众于是开始把它当成 DeepSeek 的固定输出,每一次出手都必须让硅谷巨头血溅千里,都必须让英伟达的股价抖一抖。V4 也应当如此。


可在这等待一年多的时间里,外界等得有些躁动,各路声音都出来了,说一拖再拖,是不是黔驴技穷了,扫地僧要不行了?说这话的人认为 DeepSeek 理应每次出手都是奇迹,一旦慢了半拍,便是江郎才尽。

慢,自然有慢的原因。

3 月 29 日,DeepSeek 的服务器崩了将近十三个小时,创下网页端和 App 平台上线以来最长中断纪录。连续的服务事故暴露了 DeepSeek 在运维监控、应急预案和灾备机制上的明显短板,也给整个 AI 行业敲响警钟。


当然,综合各家报道来看,V4 一再推迟的原因,还藏在芯片层面。

V3 和 R1 的成功,一定程度上建立在成熟的英伟达 CUDA 生态上,DeepSeek 的工程师们在工具完备、文档详尽、社区活跃的环境里,把算法效率一点一点榨到了极限,每一步都踩得踏实。

V4 要做的事,是把这套功夫移植到国产 AI 芯片上。工具链还在快速迭代,底层接口和 CUDA 差异巨大,分布式训练框架几乎需要从头重构。

DeepSeek 交出的答卷,如果是在受限条件下做出来的,这让它的每一分成绩,都带着额外的含金量。哪怕梁文锋愿意为这件事多拖几个月,也是一笔非常划算的决策。

至于 V4 本身,《创智记》报道称,技术重心据悉落在了 LTM(长期记忆)能力的突破上,同时将原生多模态从底层融入架构,文字和视觉在预训练阶段就融合在一起。

另一个值得关注的变化,是梁文锋本人的注意力在悄悄转移。尽管在过去的一年里,包括 R1 的核心作者郭达雅在内的部分 DeepSeek 核心骨干陆续离职,不过根据《晚点 LatePost》的观察,DeepSeek 的人才基本盘依然稳固,并未出现大规模的人才流失现象。

进入 2025 年下半年,梁文锋也愈发看重技术的商业落地与产品化进程,积极招募负责 Agent 领域的策略产品经理。与此同时,他正在为公司启动估值,给员工的期权一个明确的锚点,让团队对未来有更清晰的预期。


综合上述种种动向不难得出一个结论:曾经心无旁骛盯着 AGI 的 DeepSeek 也得开始面对一家成熟科技公司必须面对的那些现实:商业闭环、生态建设、可持续的收入来源。

扫地僧可以几十年不问江湖俗事,守着藏经阁一扫到底,一家公司,没有这个选项。

《笑傲江湖》里的令狐冲凭着独孤九剑可以破尽天下武功,但当他真正坐镇恒山派,每天迎来送往,护佑门人,一招鲜远远不够,他需要的是内政、是人心、是香火代代相传的根基。奇招,解决不了日常的柴米油盐。


因此,我们应该主动帮 DeepSeek 卸下「扫地僧」这个名号。这三个字是对过去的最高褒奖,却是对未来的过重负担。即便 V4 发布时没有断崖式的领先,只是一款 LTM 扎实、多模态原生融合、各项指标均衡的水桶机。

从产业的角度看,这依然是巨大的成功,成功在于它或许将证明 DeepSeek 有能力从一个创造奇迹的挑战者,变成一个稳定交付的基础设施提供者。

有意思的是,这件事或许本来就是双向的。《晚点 LatePost》此前的报道里,DeepSeek 对外的沟通姿态明显比以往克制,既没有大张旗鼓地预热,也没有放出足以吊足胃口的技术信号。

这种低调,很难说是无意为之。

他们比任何人都清楚,扫地僧这三个字背后悬着什么。每一次出手若不能再掀翻整张牌桌,舆论的落差就会被无限放大。这是一种预期管理,也是一种自我解绑——他们同样不想再背着这个包袱走下去。


▲AI 模型的世界,已经从少数几家机构的专属游戏,变成了全球开发者共同参与的基础设施建设,而且这个趋势还在加速。 https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

而话说回来,当舆论都在一窝蜂盯着 DeepSeek,却少有人往旁边多看一眼。


▲开源模型等级列表,图片来源:https://www.interconnects.ai/p/2025-open-models-year-in-review

这片江湖里,国内每一家 AI 都在苦修内功,押注多模态、Agent 生态、算力布局,也都在各自的赛道上走出了自己的路数。

DeepSeek 固然是那个最让人心跳加速的名字,但把眼光只锁死在它一家身上,未免看窄了这个时代。真正让天龙八部成为天龙八部的,是那一整代人各有来路,各有绝学,彼此激荡,才撑起了那个波澜壮阔的时代。

扫地僧的传说,止于藏经阁那一战,藏经阁外,才是真的江湖。

作者:莫崇宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普“民众受益”论:实为资本木偶戏

特朗普“民众受益”论:实为资本木偶戏

小眼睛小世界
2026-04-14 06:21:44
特朗普踹开中东“火药桶”反被灼伤

特朗普踹开中东“火药桶”反被灼伤

小眼睛小世界
2026-04-14 06:28:15
直接上位?缺少4大主力带队完成15分逆转,球迷:杜锋可以下课了

直接上位?缺少4大主力带队完成15分逆转,球迷:杜锋可以下课了

弄月公子
2026-04-14 23:34:26
世排69位爆冷夺冠!国乒又出一15岁天才少女:八连胜仅丢5局冒尖

世排69位爆冷夺冠!国乒又出一15岁天才少女:八连胜仅丢5局冒尖

颜小白的篮球梦
2026-04-14 21:07:23
医生:肺癌最危险信号,不是胸痛,而是频繁出现这几种异常

医生:肺癌最危险信号,不是胸痛,而是频繁出现这几种异常

医学原创故事会
2026-04-14 23:56:06
快手搜索人员调整:王毅离职,程稷李宣平接任

快手搜索人员调整:王毅离职,程稷李宣平接任

申妈的朋友圈
2026-04-13 11:09:18
上海至重庆一航班发生“重着陆”,乘客:飞机重重落地后弹起,两秒钟后再次落地,有失重感和剧烈撞击声;民航西南局介入调查

上海至重庆一航班发生“重着陆”,乘客:飞机重重落地后弹起,两秒钟后再次落地,有失重感和剧烈撞击声;民航西南局介入调查

扬子晚报
2026-04-14 20:58:19
万斯声称美国和伊朗谈判取得“重大进展”

万斯声称美国和伊朗谈判取得“重大进展”

参考消息
2026-04-14 14:39:05
明天只要关注这5大板块!

明天只要关注这5大板块!

风风顺
2026-04-14 07:10:31
徐杰封神一夜!不愧是黑山名帅!重用4人导演15分逆转,复仇宁波

徐杰封神一夜!不愧是黑山名帅!重用4人导演15分逆转,复仇宁波

后仰大风车
2026-04-14 21:49:57
外交部:如果美方执意以所谓“军品出口”为借口对华加征关税,中方必将坚决反制

外交部:如果美方执意以所谓“军品出口”为借口对华加征关税,中方必将坚决反制

新京报
2026-04-14 15:31:35
陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

电影烂番茄
2026-04-12 22:56:39
特朗普“反向封锁”霍尔木兹海峡,伊朗8000万人恐难撑过一个月

特朗普“反向封锁”霍尔木兹海峡,伊朗8000万人恐难撑过一个月

民间胡扯老哥
2026-04-14 06:00:51
性需求是人的活力来源,性需求是成年人最强大的生命力

性需求是人的活力来源,性需求是成年人最强大的生命力

加油丁小文
2026-04-03 11:30:07
56岁李嘉欣到日本东京赏樱花,她染了一头黄毛,化着浓妆

56岁李嘉欣到日本东京赏樱花,她染了一头黄毛,化着浓妆

科学发掘
2026-04-13 21:37:51
澎湃回声|男子无偿献血十年要求免诊查费遭拒,自贡卫健委:两单位已道歉

澎湃回声|男子无偿献血十年要求免诊查费遭拒,自贡卫健委:两单位已道歉

澎湃新闻
2026-04-14 17:06:27
美股深夜全线大涨,半导体股回调,闪迪跌超4%,黄金突破4800美元,原油跳水跌超6%

美股深夜全线大涨,半导体股回调,闪迪跌超4%,黄金突破4800美元,原油跳水跌超6%

21世纪经济报道
2026-04-14 22:36:27
字字扎心!王晓晨发文内涵俞灏明,多年付出全被嫌弃,根本看不上

字字扎心!王晓晨发文内涵俞灏明,多年付出全被嫌弃,根本看不上

八斗小先生
2026-04-14 14:42:10
美专家:中国简直“反人类”!居然在地下900米处,开工新煤矿

美专家:中国简直“反人类”!居然在地下900米处,开工新煤矿

点燃好奇心
2026-04-13 10:44:00
忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

阿凫爱吐槽
2026-03-24 17:59:04
2026-04-15 02:00:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38693文章数 2601475关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

房产
亲子
艺术
公开课
军事航空

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

亲子要闻

中泰宝宝和外公打电话,一个小动作让娃瞬间害羞~

艺术要闻

她的水彩画竟让亿万男人倾倒,你绝对想不到!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版