网易首页 > 网易科技 > 网易科技 > 正文

终等到DeepSeek V4:1.6万亿参数、百万上下文,牵手华为,价格依然"屠夫级"

0
分享至

出品 | 《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

DeepSeek-V4,终于来了。

这段时间,行业节奏已经快到有些失真。新模型一波接一波,参数、榜单、价格、长上下文、Agent、推理强度,几乎每隔几天就要重排一次座次。越是在这种密集更新里,DeepSeek的沉默就越容易被放大。再叠加融资、扩张、下一阶段战略这些外围讨论,市场对它的期待,早就不只是“再发一个新模型”这么简单。

所以,V4这次上线,大家真正想知道的其实是两件事:

第一,DeepSeek还在不在第一梯队里。

第二,它这次到底拿出了什么新东西。

4月24日,DeepSeek-V4预览版官宣上线,同步开源。

先说结论:V4不是一代靠“能力全面跃升”来定义自己的模型。官方表示,相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent 相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding 模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近 Opus 4.6非思考模式,但仍与 Opus 4.6思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

那 V4在做什么?一句话:它把长上下文的成本结构彻底重写了一遍。100万 token 上下文成为标配,但单 token 的算力消耗反而大幅下降。这是一次基础设施级别的发布,为下一阶段的 test-time scaling 和长程 Agent 任务铺路。

两个版本、百万上下文、三档推理,DeepSeek这次最狠的还是价格

这次 V4一共两个版本。

V4-Pro 是旗舰版,总参数1.6T,激活参数49B;V4-Flash 是轻量版,总参数284B,激活参数13B。两者都原生支持1M 上下文,同时支持非思考模式和思考模式。

更进一步,每个模型又分成三档推理强度:Non-think、Think High、Think Max。也就是说,这次 DeepSeek 给出的不只是两个模型,而是一整套可以按场景分层调用的能力结构。

从产品上看,这个思路已经很明确了:Pro 负责冲能力上限,Flash 负责铺性价比;非思考负责效率,Max 负责榨干推理能力。

官方也直接说了,“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”这句话表面上是在强调上下文长度,实际上更重要的是它背后的意思:DeepSeek 不是想把1M 当成一个展示参数,而是想把它做成标准配置。

而标准配置能不能成立,关键从来都不是“写没写支持1M”,而是成本。

这次 V4最值得注意的地方,也正是在成本曲线。按照官方披露的数据,在1M 上下文设置下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2的27%,KV Cache 只有10%;V4-Flash 更激进,分别压到10% 和7%。换句话说,虽然上下文从128K 拉到了1M,理论上放大接近8倍,但单 token 的推理成本并没有跟着爆炸,反而被打了下来。

这一点其实比“百万上下文”本身更关键。因为过去很长一段时间,长上下文一直都更像一种能力展示:窗口越写越长,但真到实际调用时,价格、延迟、显存压力都很难看。V4这次真正想证明的是,长上下文不一定只能做成贵族配置,它可以被改造成可供大规模调用的基础能力。

这一点在价格上体现得非常直接。

V4-Pro 每百万 token 输入价格是1元,输出是12元;V4-Flash 每百万 token 输入0.2元,输出2元。这个价格一出来,基本上还是那个熟悉的 DeepSeek 风格。

也难怪不少用户第一反应还是那句老话:便宜,而且强。

技术上动了三刀:注意力、残差、后训练

V4最核心的技术改动在注意力层。传统 Transformer 的注意力机制里,每个 token 要和前面所有 token 算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍。

V4的做法是把注意力拆成两种,交替叠用。一种叫 CSA(压缩稀疏注意力),先把每4个 token 的 KV 缓存合并成一条摘要,再让每个 query 只在这些摘要里挑出最相关的 top-k 条去算。既压缩了"要看的内容",又只挑"值得看的"去算。另一种叫 HCA(重压缩注意力),压缩率更激进,把每128个 token 合并成一条,但对剩下的摘要做稠密注意力,不做稀疏挑选。两种交替叠起来,再加一个滑动窗口分支处理近距离 token 之间的细节依赖。这是一套"粗粒度 + 细粒度、稀疏 + 稠密"的组合拳。

把这套方案放进 DeepSeek 过去两年的技术脉络里,变化就很清晰。V2、V3走的是参数稀疏化,总参数很大,但每 token 只激活一小部分专家。V4在此之外又开了一条上下文稀疏化的路,KV 压缩、top-k 选择、分层压缩率。这是 DeepSeek 第一次把"稀疏化"的刀动到 Transformer 的核心结构里。

除了注意力层,V4还改了两处之前没动过的地方。一是把传统残差连接升级为 mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定;二是用 Muon 优化器替代大部分模块原本用的 AdamW,收敛更快,训练更稳。同时动注意力、残差、优化器三处核心结构,在 DeepSeek 的历史上是第一次。

比架构改动更值得注意的是后训练方法的切换。V3.2用的是"混合 RL",一次性用强化学习优化多个目标。V4换成了"分化再统一"的两步走。第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型——先用该领域高质量数据做监督微调,再用 GRPO 算法做强化学习,在各自的细分赛道上跑到最优。第二步,用 On-Policy Distillation(OPD,在策略蒸馏)把十多个领域专家"合成"回一个统一的学生模型。学生自己生成回答,然后对每个回答,去匹配"最懂这个问题"的专家的输出分布,通过 logit 级对齐把能力吸收进来。通俗地讲,就是把一堆尖子生的本事蒸馏进同一个人脑袋里。

这套流程的工程难度极高:同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek 的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的 hidden state,训练时按教师索引排序样本,保证任意时刻 GPU 显存里只驻留一个 teacher head。V4的能力不再靠一个模型从头学到底,而是先让不同专家在各自赛道跑到顶,再把它们收编进同一套权重。这种思路绕开了传统混合 RL 容易导致的能力互相干扰问题。

在 Agent 方向,V4做了几处专项优化:后训练阶段把 Agent 作为与数学、代码并列的独立专家方向单独训练;工具调用格式从 JSON 换成带特殊 token 的 XML 结构,降低转义错误;跨轮次推理痕迹在工具调用场景下完整保留,不再像 V3.2那样每轮清空。DeepSeek 还自建了一套名为 DSec 的沙箱平台,单集群可并发管理数十万个沙箱实例,专门支撑 Agent 强化学习训练和评测。V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了适配优化,在代码任务和文档生成任务上均有提升。

融资、算力、昇腾,V4背后还有DeepSeek的下一道现实题

V4这次发布,另一个绕不开的话题,是算力。

DeepSeek 在说明里提到,受限于高端算力,当前 Pro 的服务吞吐仍然有限,预计下半年昇腾950超节点批量上市之后,Pro 的价格还会进一步大幅下调。它基本等于确认了两件事。

第一,DeepSeek 这次确实已经把国产算力协同放进正式路线里了。

第二,V4当前的能力释放,还没有完全到位,背后依然受制于算力供给。

昇腾表示,其一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。

今天下午,16点,华为昇腾还将在B站直播DeepSeek V4在其平台的首发。

此前有消息称,DeepSeek 正以超过100亿美元估值寻求外部融资,计划募集不少于3亿美元资金。对一家过去长期强调独立性、相对克制资本叙事的公司来说,这种变化本身就很值得玩味。因为当模型行业进入更高密度的竞争之后,技术路线再强,也很难脱离算力、人才和现金流去单独讨论。

从这个角度看,V4其实也暴露出 DeepSeek 当前所处的位置:它在模型能力上仍然保持强竞争力,尤其在开源和高性价比这条线上依然非常突出;但与此同时,它也已经进入一个必须更现实地处理算力和资源配置的问题阶段。

这点在多模态上体现得尤其明显。

这次 V4没有推出多模态版本,而多模态已经越来越成为头部模型厂商的“标配动作”。如果说 V4展现的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上继续往前推,那么它暂时没有补上的那一块,也同样说明公司还得在资源约束下做取舍。

所以,怎么理解这次 V4?如果说过去外界对 DeepSeek 的期待,是它还能不能再做出一个“便宜又强”的模型;那么 V4给出的回答是:它不仅还在这么做,而且正在试图把“便宜又强”这件事,进一步做成一种结构性的能力。

至于再往后,DeepSeek 能不能补上多模态、能不能借融资解决算力瓶颈、能不能把 V4这套 preview 架构真正打磨成熟,那就是下一阶段的问题了。

相关推荐
热点推荐
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
泽连斯基威胁欧盟,再不让加入欧盟,就把乌克兰变成格鲁吉亚

泽连斯基威胁欧盟,再不让加入欧盟,就把乌克兰变成格鲁吉亚

霁寒飘雪
2026-04-24 14:51:52
60~75岁老人,除不爬高外,这八件事也没做,你就是一位宝藏老人

60~75岁老人,除不爬高外,这八件事也没做,你就是一位宝藏老人

暖风吹过竹林
2026-04-24 09:22:48
年内最牛新股!688808,最高涨超950%,中一签赚近39万

年内最牛新股!688808,最高涨超950%,中一签赚近39万

数据宝
2026-04-24 10:53:13
嘴唇是“心梗”的放大镜?提醒:嘴唇有这5种变化,建议及时就医

嘴唇是“心梗”的放大镜?提醒:嘴唇有这5种变化,建议及时就医

芹姐说生活
2026-04-23 19:14:31
西方专家惊呼:中国正在回到明朝,可怕的“朝贡体系”正在归来!

西方专家惊呼:中国正在回到明朝,可怕的“朝贡体系”正在归来!

牛马搞笑
2026-04-23 11:06:00
平顶山一金店被搬空只剩架子,多人在店铺寄存黄金,老板失联疑似跑路,当地:警方已立案

平顶山一金店被搬空只剩架子,多人在店铺寄存黄金,老板失联疑似跑路,当地:警方已立案

极目新闻
2026-04-24 16:09:26
太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

太惨了!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

混沌录
2026-04-23 16:50:14
8岁路易王子生日照:王室流量密码的精准投放

8岁路易王子生日照:王室流量密码的精准投放

热搜摘要官
2026-04-24 08:08:53
“乒坛魔王”转投哈萨克斯坦,张继科回击:祖国尊严高于一切!

“乒坛魔王”转投哈萨克斯坦,张继科回击:祖国尊严高于一切!

林子说事
2026-04-23 16:57:05
马来西亚向法国、土耳其和韩国下了军火大单,采购多款导弹

马来西亚向法国、土耳其和韩国下了军火大单,采购多款导弹

无月可归辛
2026-04-24 11:50:05
导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

小杨侃事
2026-04-23 14:17:02
破例接机!中方强势降临中东,伊朗导弹下饺子,美霸权迎来终局?

破例接机!中方强势降临中东,伊朗导弹下饺子,美霸权迎来终局?

未来展望
2026-04-23 18:24:29
特斯拉老兵挖矿,自动驾驶卡车下周进场

特斯拉老兵挖矿,自动驾驶卡车下周进场

像素与芯片
2026-04-23 15:12:23
时刻紧盯着解放军的美军印太司令,突然发现了一个非常要命的问题

时刻紧盯着解放军的美军印太司令,突然发现了一个非常要命的问题

墨印斋
2026-04-24 16:16:36
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
仅24岁!美女谢垚:心梗去世,经常跑半马,父亲带女儿照片看海!

仅24岁!美女谢垚:心梗去世,经常跑半马,父亲带女儿照片看海!

川渝视觉
2026-04-24 12:48:24
首次!日本导弹将对舰艇开火!中国:历史会以相似的逻辑重现!

首次!日本导弹将对舰艇开火!中国:历史会以相似的逻辑重现!

小莜读史
2026-04-23 17:15:02
刚刚,全线跳水!美军,动手了!

刚刚,全线跳水!美军,动手了!

中国基金报
2026-04-23 14:34:47
赖清德无法窜访,卢秀燕表态后,日本也发声了,非常不简单

赖清德无法窜访,卢秀燕表态后,日本也发声了,非常不简单

DS北风
2026-04-24 11:32:03
2026-04-24 16:59:01

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

男子拍下蒋介石故居对面别墅区两厕所 两年来无法使用

头条要闻

男子拍下蒋介石故居对面别墅区两厕所 两年来无法使用

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

亲子
本地
房产
艺术
公开课

亲子要闻

新生儿纸尿裤怎么选?五大选择黄金要素发布

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

房产要闻

三亚安居房,突然官宣!

艺术要闻

新地标!阿里中心·杭州未科,gmp设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×