网易首页 > 网易号 > 正文 申请入驻

DeepSeek过于朴素了

0
分享至


出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国

“不诱于誉,不恐于诽,率道而行,端然正己。”

这是4月24日,DeepSeek在发布V4预览版时写在公众号文章末尾的话。

放在当下的语境,来解读这句话的意思是,无论外界如何期待、如何猜测,DeepSeek仍按自己的节奏走,不被赞誉裹挟,也不被情绪推着走。

甚至相比于其他几家基座模型公司,DeepSeek显得过于朴素了——不刻意刷榜、不考虑商业化、不优化用户体验,只是充当好一个“修路人”的角色。

时间拨回至R1发布当天,行业迅速沸腾,而在往后的这459天里,大家一边期待着DeepSeek的新模型,一边见证了智谱和MiniMax两大国产模型纷纷登陆资本市场,两家市值均一度冲破3000亿元。

就在DeepSeek正式发布V4后的几分钟,资本市场再次给出反馈。约上午11时05分,港股大模型板块快速震荡,智谱与MiniMax双双跳水,盘中一度分别跌超10%和12%。

这是过去一年行业最鲜明的变化之一:国产模型首次被资本市场定价,也让DeepSeek被不断投射为下一次行业变量。

与此同时,Kimi、Minimax、Qwen和智谱等模型频频登顶,但在此期间,DeepSeek却一直悄无声息。

而今天DeepSeek的新模型终于来了,但从这个新模型V4来看,它并不属于大众所理解的”行业顶尖“,至少这个“领先”不是榜单所定义的。

据 Artificial Analysis 数据,V4 Pro 在世界知识类 benchmark 中已跻身全球前列,仅次于 Gemini-Pro-3.1。综合表现来看,DeepSeek V4 已领先多数开源模型,整体性能开始逼近顶级闭源模型。

也就是说,如果按照大家期待,V4应该会是再一次震惊行业的“顶尖”模型,但这不是DeepSeek给自己的定义。它给自己的定义一直都是追求性价比。


和其他基模公司比,DeepSeek过于朴素

在几家头部大模型公司里,DeepSeek一直有一种很特别的气质:朴素。

这种朴素,不是指产品简单或者技术激进与否,而是它很少像一家标准AI创业公司那样,被融资节奏、商业化压力和市场情绪推着走。某种程度上,它不急着证明自己能赚多少钱,因此反而更有空间去做自己真正想做的事。

虎嗅对比了几大基座模型的技术路线后发现,和DeepSeek最相似的就是Kimi了。


两家公司都带有鲜明的技术理想主义色彩,也都曾凭借模型能力在行业里打出辨识度。就在V4发布前两天,Kimi刚刚推出K2.6,并称其为发布以来最好的代码模型。与此同时,DeepSeek在V4发布文章中也提到,他们内部同样在将V4作为公司内部员工使用的 Agentic Coding 模型。

这意味着,两家公司都把代码能力视作模型价值的重要方向。

相似点还不止于此。这次V4的另一大特点,是原生支持1M上下文,并强化长链路推理能力。而长上下文、复杂任务处理,同样是Kimi过去一年持续强化的标签。

如果只看代码、长上下文、复杂任务这些表面能力边界,Kimi与DeepSeek似乎正在越来越靠近,甚至可以说,两家完全撞车。

但如果仔细拆开,会发现两家公司走的其实是两条完全不同的技术路线。

Kimi过去长期强调的,是线性注意力路线。它的核心思路,是让模型在超长上下文、多步骤任务中,把计算成本控制在可接受范围内,再叠加Agent系统、任务编排、多轮调用等能力,让模型像一个可以持续工作的执行系统。

而DeepSeek V4这次在技术报告中强调,使用的是混合注意力架构(Hybrid Attention):通过 CSA(Compressed Sparse Attention,压缩稀疏注意力)与 HCA(Heavily Compressed Attention,重度压缩注意力)交替配合,对历史上下文进行分层压缩和选择性读取,在保持百万级上下文能力的同时,大幅降低推理成本。

报告数据显示,在100万token场景下,DeepSeek V4-Pro 的单token推理 FLOPs 降至上一代模型的27%,KV Cache占用降至10%。

简单来说就是,Kimi的思路,更像是把一个复杂任务拆成很多步骤,再组织多个智能体协作完成;DeepSeek的思路,则是先把底层存在的问题先一点点解决掉,把地基搭好,让模型在底层计算结构上先变得更高效。

这两者看起来是,一个是在任务层做加法,一个是在系统层做减法。

但如果按照这个逻辑来看,可以得到一个结论是,在面对同一项复杂任务时,Kimi往往会消耗更多token。

原因并不复杂。因为当模型开始承担真实工作流程时,token消耗不再只是用户输入与最终输出,还包括任务拆解、中间推理、多轮调用、工具返回结果、错误修正以及多个Agent之间的上下文同步。用户只输入一句话,后台可能已经完成了十几轮运算。

当然,这并不意味着Kimi的技术路线有问题。尤其是在当下,AGI的技术路线并未收敛的当下,任何一种技术路线都有各自的优劣势。

那么,作为一家更强调商业化落地的公司,Kimi做的事情是优化用户体验,首先让很多企业和个人用户愿意为Kimi付费。某种程度上,它已经接近“可交付的生产力工具”。如果一个模型多消耗一些token,却替用户节省了3小时工作时间,这笔账未必不划算。

也就是说,Kimi追求的,是token被消耗后的产出效率;而DeepSeek追求的,则是token本身的计算效率。

这两种选择背后,非常鲜明地体现出两家公司不同的底色。

DeepSeek背后的母公司幻方量化,本质是一家量化机构。量化交易天然强调两件事:效率与收益率。任何策略都要计算投入产出比,任何系统都要追求速度、稳定性与资源利用率。在这种文化下成长出来的团队,会很自然地关注大模型的效率问题。

这也解释了为什么DeepSeek总在做一些看起来没那么热闹、却极其关键的事情,比如MoE、推理优化、注意力重构、算力利用率提升。

因为对幻方来说,大模型未必是一门独立生意,但它首先需要是一套提升研究效率、分析效率与决策效率的基础工具。

换句话说,梁文锋也许并不关注DeepSeek能为他带来多少收入。他有更长的时间尺度,也更能接受先做难而慢的事。

Kimi则不同。月之暗面从创立第一天开始,就是一家标准意义上的AI创业公司。它需要融资,需要增长,需要向市场证明模型能力最终可以转化为真实业务。杨植麟当然有很强的AGI理想主义色彩,但Kimi必须同时面对商业化的现实问题。

这也决定了,Kimi会更积极地靠近用户需求、代码需求、Agent需求和付费需求。它的模型迭代节奏、产品节奏、组织节奏,更像一家需要持续奔跑的创业公司。

所以,看起来都在做长上下文、代码模型和复杂任务,两家公司却在解决完全不同的问题。

这也是为什么DeepSeek总显得“不着急”。


国产替代,仍在路上

在V4发布前,外媒曾多次“预告”DeepSeek将完全切换至国产模型训练,并逐步摆脱对英伟达的依赖。

然而,从V4发布的技术报告来看,这一消息未必是真的。

DeepSeek仅在报告中强调了,其已经验证了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上验证了 EP(专家并行)方案。但并没有明确提到DeepSeek已经切换至华为昇腾芯片上做训练,

更准确地说,它说明的是,DeepSeek已经在系统层面完成了跨平台适配,至少让V4这类MoE模型能够同时运行在英伟达与昇腾两套硬件架构之上。但这并不直接意味着,其核心训练任务已经离开英伟达。

换句话说,DeepSeek极有可能依然依赖于英伟达芯片做训练,而用国产芯片完成推理任务。

这其实也是当前行业更现实的路径。

原因并不复杂。预训练阶段对芯片生态要求极高,涉及大规模并行训练、通信带宽、编译器成熟度、故障恢复能力以及长期稳定性。相比之下,推理环节对算力的要求更分散,也更适合率先完成国产替代。因此,许多公司采取的并不是“一步到位切换训练底座”,而是先从推理侧开始迁移。

有多位行业人士在虎嗅交谈时表示,“如果真的彻底切换至国产芯片,V4可能不会这么快到来。”

然而,比切换至国产芯片上训练更值得关注的是,DeepSeek这次在工具链层面的变化。

过去,DeepSeek曾因深度使用 PTX 编程语言而受到关注。PTX可以理解为英伟达GPU生态中的底层中间语言,接近汇编层,能够极致榨取单卡性能,但天然绑定英伟达体系,开发门槛高,可迁移性也有限。

而在V4报告中,DeepSeek不再强调PTX,而是提到了 DSL(Domain-Specific Language,领域专用语言),例如其采用 TileLang 这类面向AI算子优化的DSL,以平衡开发效率与运行效率。

两者的区别在于:PTX是一种直接操作英伟达机器的底层语言,追求极限性能,但强绑定英伟达;DSL则更像是一层中间抽象,让团队在保持性能的同时,更快开发算子、更容易适配不同芯片平台。

这意味着,DeepSeek虽然未必已经完成国产芯片训练替代,但它至少已经开始让自己的模型不再强绑定英伟达,未来有可能逐步切换到国产芯片上训练。


不做被期待的DeepSeek

DeepSeek并不打算成为外界期待中的那个DeepSeek。

过去一年,DeepSeek被行业赋予了太多角色。有人期待它再次复制R1时刻,发布一款重新震动行业的顶尖模型;有人期待它成为中国大模型摆脱英伟达依赖的象征。

但V4的发布证明,DeepSeek并没有被打乱节奏。

它依然是一家围绕着“效率”做模型的公司,例如,混合注意力架构、KV Cache压缩、百万上下文推理成本下降、专家并行优化、跨平台Kernel设计,这些内容并不算“性感”,但都非常重要。

但这些不算性感的工程化改进,正在逐步解决大模型目前依然存在的bottleneck。

从这个角度看,DeepSeek和其他基座模型公司已经不站在同一维度上了。当不少公司还在争夺入口、争夺用户时,DeepSeek更关心的是,怎样把单位智能的成本继续压低,怎样让同样的能力消耗更少算力。

所以,“不诱于誉,不恐于诽,率道而行,端然正己”,放在V4结尾,与其说是一种姿态,不如说是向大众表态——DeepSeek选择继续做那个更冷静的DeepSeek。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4853463.html?f=wyxwapp

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《最强大脑》水哥现状:46岁不上班,住热带雨林,靠脑子年入千万

《最强大脑》水哥现状:46岁不上班,住热带雨林,靠脑子年入千万

子芫伴你成长
2026-04-19 23:08:37
乌专家:中国“榨干”苏联遗产,我们图纸都没看懂,他们造出2.0

乌专家:中国“榨干”苏联遗产,我们图纸都没看懂,他们造出2.0

马蹄烫嘴说美食
2026-04-24 18:45:06
49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

一盅情怀
2026-03-16 16:58:07
女篮抽到下下签,宫导迎挑战!放弃3人、启用李梦、刘禹彤是良策

女篮抽到下下签,宫导迎挑战!放弃3人、启用李梦、刘禹彤是良策

米果说识
2026-04-25 08:55:28
结束了!整整47连败啊!世界第一烂队诞生

结束了!整整47连败啊!世界第一烂队诞生

篮球实战宝典
2026-04-24 22:32:18
歼35给的压力太大,大批美国军官联名上书:不这么做就打不赢中国

歼35给的压力太大,大批美国军官联名上书:不这么做就打不赢中国

人间放映厅
2026-04-24 16:06:07
气血不足!不妨多吃“天然造血库”,倒头就睡,脸色红润

气血不足!不妨多吃“天然造血库”,倒头就睡,脸色红润

江江食研社
2026-04-23 03:30:03
李亚鹏,好消息:那个被房东赶出门的医院,终于在北京安家了

李亚鹏,好消息:那个被房东赶出门的医院,终于在北京安家了

一盅情怀
2026-04-25 16:23:08
【独家深解】霍尔木兹“停火”真相:一场让美国流血的“胜利”,伊朗正在赢得战略喘息?

【独家深解】霍尔木兹“停火”真相:一场让美国流血的“胜利”,伊朗正在赢得战略喘息?

华山穹剑
2026-04-24 19:57:00
迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

乔话
2026-04-22 20:36:30
提前起飞10分钟,大学生把海航告了

提前起飞10分钟,大学生把海航告了

中国新闻周刊
2026-04-24 18:21:10
昆明长水国际机场内多处漏水,机场客服:正在抢修

昆明长水国际机场内多处漏水,机场客服:正在抢修

极目新闻
2026-04-25 11:40:00
可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

可惜,大s永远不会知道了,到最后,护着她两个孩子的是婆婆张兰

喜欢历史的阿繁
2026-04-25 10:15:34
世锦赛战报:竞逐八强,连爆大冷预警,世界第2第6马叔都落后了

世锦赛战报:竞逐八强,连爆大冷预警,世界第2第6马叔都落后了

求球不落谛
2026-04-25 07:57:27
医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

芹姐说生活
2026-04-23 15:04:44
中年女人最容易爱上的男人,不是主动的,而是这种“三不”男人

中年女人最容易爱上的男人,不是主动的,而是这种“三不”男人

周哥一影视
2026-04-25 18:55:52
年轻人上班带饭的“饭盒”,能有多邪修?我也是被惊艳到了

年轻人上班带饭的“饭盒”,能有多邪修?我也是被惊艳到了

美家指南
2026-04-23 15:53:51
丁俊晖:赵心童打球太像奥沙利文了,他未来将接管斯诺克这项运动

丁俊晖:赵心童打球太像奥沙利文了,他未来将接管斯诺克这项运动

杨华评论
2026-04-25 07:03:01
血战宾特朱拜勒!以军伞兵师继续进攻,守军6人小组全部阵亡

血战宾特朱拜勒!以军伞兵师继续进攻,守军6人小组全部阵亡

战风
2026-04-25 18:40:00
新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

最黑科技
2026-03-22 23:14:02
2026-04-25 20:48:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
26181文章数 687689关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

男童7岁18斤被当脑瘫治多年 父母查其出生病历发现问题

头条要闻

男童7岁18斤被当脑瘫治多年 父母查其出生病历发现问题

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

家居
房产
艺术
健康
教育

家居要闻

自然肌理 温润美学

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

艺术要闻

302米!迪拜又拿下一项全球之最,通体是陶瓷!

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

我国“就业率逼近100%”的5所双非大学,500多分就能上!

无障碍浏览 进入关怀版