网易首页 > 网易号 > 正文 申请入驻

新版本发布,DeepSeek再掀效率革命|甲子光年

0
分享至



更便宜、更快,向Agent和国产替代更进一步。

作者|卫琳聪 周悦

终于,DeepSeek-V4 来了。

距离上次版本发布已经过去近5个月,期间多次有DeepSeek新版本发布的消息传出,但都干打雷不下雨,等待的空气里不免泛起一些怀疑。

4月24日,DeepSeek-V4 预览版正式上线并同步开源,官方新闻稿里直接宣称“迈入百万上下文普惠时代”。

此次发布的版本包含两款MoE语言模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。

前者总参数1.6T、激活参数49B,后者总参数284B、激活参数13B,两者均支持一百万token 上下文。

如果单看百万上下文的能力,在V4之前市场上已有多款模型能够实现,国外如谷歌Gemini ,国内如阿里Qwen、月之暗面Kimi等。

DeepSeek-V4 令人惊艳的地方,是又一次带来效率革命,在性能提升的同时实现成本下降,尤其是让Agent更便宜成为可能。

更重要的是,V4为打破算力束缚提供了更大可能性,大模型的算力底座从英伟达向华为迈出了坚实一步。

1.转向Agent

DeepSeek官方表示,V4在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

其中,DeepSeek-V4-Pro性能比肩顶级闭源模型。

在世界知识测评中,DeepSeek-V4-Pro大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。在推理性能上,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了世界顶级闭源模型相当的成绩。

不过,技术报告显示,最大推理强度模式DeepSeek-V4-Pro-Max性能仍略逊于GPT-5.4和Gemini 3.1-Pro,这表明其发展轨迹大致落后于最先进的前沿模型约3到6个月。


DeepSeek-V4-Pro-Max与同类模型的基准性能对比

值得注意的是,DeepSeek-V4-Pro的Agent 能力大幅提高。

在对DeepSeek-V4技术报告的深入分析中,「甲子光年」注意到,V4在更明显地转向Agent任务。从V3.1到V3.2,DeepSeek已经在强化工具调用和Agent能力,到了V4,这条线更清楚。

技术报告里出现了工具调用格式、推理内容管理、Quick Instruction、Agent沙箱基础设施,以及Search、White-Collar Task、Code Agent等真实任务评测。重点考察模型能不能在多步任务中低成本地调用工具、保留状态、继续执行。

在Agent 能力提高的同时,V4提供的价格相当实惠。缓存命中场景下,Flash版输入成本低至0.2元/百万Token。对于需要大量、多轮次Token交互的Agent应用来说,这无疑是降低成本的好消息。

能力提高、价格下降,毫无疑问,V4在瞄准Agent 发力,也将进一步推动Agent 的普及。

2.更便宜、更快

DeepSeek-V4系列此次表现出的最大特点,是在长上下文场景中极高的效率。

在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,所需KV缓存空间也仅为其10%。

而参数激活数量更少的DeepSeek-V4-Flash则进一步提升了效率:在百万上下文中,其单token推理FLOPs仅为DeepSeek-V3.2的10%,KV缓存容量仅为7%。


DeepSeek-V4系列与DeepSeek-V3.2的推理FLOPs计算量及KV缓存容量

基于这种进步,DeepSeek官方宣布,“从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。”

这带来了什么?最直观的就是价格便宜。

处理一个Token所需的总计算量骤降,直接导致在云端处理每一条请求的电力、硬件磨损和运营成本都断崖式下降。这是DeepSeek敢于将API定价打到行业地板价。

DeepSeek V4-Flash输出价为2元/百万token,不到同天发布的GPT-5.5 Pro输出价(180美元)的千分之二。


除了更便宜,模型也会更快。KV缓存占用降低,也有助于提升并发能力,并在一定程度上改善长上下文请求的响应效率。

让或许能让许多曾经“奢侈”的应用场景成为现实。例如,将整个代码库塞进上下文进行跨文件的“智能体编程”(Agentic Coding)、让AI进行长时间的自主规划与反思等。

效率的提高源自工程层面的创新。

「甲子光年」认为,在延续底层工程哲学的基础上,V4的重点进一步转向两个问题:一是如何低成本支持百万token上下文,二是如何让更复杂的模型结构和后训练流程稳定运行。

最核心的结构创新是混合注意力机制(HybridAttention),这让V4的长上下文效率大幅提升。

大模型在生成内容时,需要不断回看此前上下文。上下文越长,需要保存和调用的KV缓存就越多,每生成一个新Token时的推理开销也会随之增加。DeepSeek-V4的思路是,将长上下文分层处理,将压缩稀疏注意力(CSA)与重度压缩注意力(HCA)相结合。

具体来说,V4将压缩稀疏注意力(CSA)和重度压缩注意力(HCA)结合:CSA先压缩KV信息,再筛选与当前query最相关的部分参与计算;HCA则以更高压缩率保留远距离上下文的粗粒度信息。同时,滑动窗口注意力(SWA)处理近处上下文细节,弥补压缩机制可能导致的局部信息损失。

通俗地说,传统注意力机制更像把整本书逐页摊开,每次答题都重新翻一遍;V4则更像更像是一个智能索引,把近处内容保留原文,把远处内容压缩成章节摘要。

另一项核心架构创新是流形约束超连接(mHC),用于增强底层稳定性。混合注意力机制解决的是模型“怎么看长文本”,mHC解决的是模型内部信息“如何稳定传递”。

技术报告中提到,通过重计算、融合算子等工程优化,mHC带来的额外训练时间开销被控制在约6.7%。这表明它并非单纯的理论构想,而是适配V4大规模生产训练的实用设计。

DeepSeek对V4的架构很有信心,表示其性能可与GPT-5.2和Gemini-3.0-Pro相媲美,确立了其作为处理复杂推理任务的高性价比架构的地位。


DeepSeek-V4系列的整体架构

3.加速国产替代

另一个值得注意的地方是,此次DeepSeek-V4与华为的关联更强。

技术报告中提到一个细节:DeepSeek的细粒度专家并行优化方案已经在英伟达GPU和华为昇腾NPU上验证。

并且,这套方案在通用推理负载中带来1.50—1.73倍加速,在强化学习采样和高速智能体服务等低延迟场景中最高达到1.96倍加速。

这并不等于V4全栈已经完全适配昇腾,但意味着昇腾950超节点对V4-Pro的意义不只是增加算力,也在于提升多卡协同能力。若后续供给和适配顺利,V4-Pro的吞吐和成本空间有望改善。

DeepSeek在V4发布的官宣文章中,用一行小字写道:预计下半年昇腾950超节点批量上市后,pro的价格会大幅下调。

另一方面,技术报告还提到,DeepSeek-V4系列的路由专家参数均采用FP4精度。虽然在现有硬件上,FP4×FP8运算的峰值FLOPs性能与FP8 × FP8运算相同,但从理论上讲,在未来硬件上其效率可提高三分之一,这将进一步提升DeepSeek-V4系列的运算效率。

据「甲子光年」观察,从V3开始,DeepSeek就没有单纯依赖参数规模,而是持续优化训练效率、显存占用和硬件利用率。在训练工程上,V4引入Muon优化器,并进一步使用FP4/FP8低精度训练。前者用于提升收敛速度和训练稳定性,后者用于降低显存、带宽和推理成本。

这可谓DeepSeek-V4 在技术选型上的一个“伏笔”:它在当前硬件上选择了成熟的 FP8×FP8 路线,但架构设计已为未来的 FP4×FP8 混合精度运算做好了准备,一旦硬件成熟,效率将立刻跃升。

这意味着 V4 未来有望在单卡上运行更大模型,推理成本也有望继续下降。

同时,基于DeepSeek的高效架构,即使国产AI芯片单卡算力绝对值不如英伟达等顶级产品,也能凭借其高吞吐、低显存占用的优势运行大模型。

这无疑进一步打破了算力束缚,国产替代的步伐加快了。

(封面图由AI生成,文中配图来自:DeepSeek)



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人发了情,是什么表现?

女人发了情,是什么表现?

加油丁小文
2026-04-25 12:00:09
新血糖标准已更新,空腹血糖最佳值不再是5.4,早干预更安心

新血糖标准已更新,空腹血糖最佳值不再是5.4,早干预更安心

健康科普365
2026-04-24 19:30:03
阿斯:巴萨全队在酒店看皇马比赛,贝莱林进绝平球后陷入狂欢

阿斯:巴萨全队在酒店看皇马比赛,贝莱林进绝平球后陷入狂欢

懂球帝
2026-04-25 10:11:10
牡丹花下死!汪峰官宣恋情才2年,森林北又走上了章子怡的老路

牡丹花下死!汪峰官宣恋情才2年,森林北又走上了章子怡的老路

落雪听梅a
2026-04-24 07:58:40
乌克兰清除全部库皮扬斯克俄军部队!摧毁红军村通讯系统

乌克兰清除全部库皮扬斯克俄军部队!摧毁红军村通讯系统

项鹏飞
2026-04-24 12:48:43
伊朗国防部说伊朗已生产逾千种武器装备

伊朗国防部说伊朗已生产逾千种武器装备

界面新闻
2026-04-25 09:35:27
月薪1.6万招放羊工老板:电话快被打爆了,更适合四五十岁的夫妻搭档,一个人来的都拒绝了

月薪1.6万招放羊工老板:电话快被打爆了,更适合四五十岁的夫妻搭档,一个人来的都拒绝了

环球网资讯
2026-04-24 14:55:55
五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

五指山舰女兵受访“一问三不知”,没被骂反被夸,真实原因太戳人

奇思妙想草叶君
2026-04-24 17:11:11
再见,曼联!9000万“大核”决定离队!斥资2.4亿签下“新中轴”

再见,曼联!9000万“大核”决定离队!斥资2.4亿签下“新中轴”

头狼追球
2026-04-25 13:27:55
古尔曼:苹果正研发MacBook Ultra,外观重大升级、首搭OLED屏幕

古尔曼:苹果正研发MacBook Ultra,外观重大升级、首搭OLED屏幕

IT之家
2026-04-25 07:05:03
核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

核风险升高!3艘俄舰被击沉,局势触碰普京底线,美官员集体发声

云上乌托邦
2026-04-22 20:08:41
突然被带走调查:牢记“三不说、四不签”,不吃亏、不踩坑

突然被带走调查:牢记“三不说、四不签”,不吃亏、不踩坑

匹夫来搞笑
2026-04-25 03:19:47
忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

人生录
2026-04-24 09:13:06
任天堂提醒您:吃灰的Switch别忘记充电

任天堂提醒您:吃灰的Switch别忘记充电

游民星空
2026-04-25 12:11:16
湖北一老人拿离世孩子手机去维修,称里面有视频想留个念想,独臂店主拒绝收钱

湖北一老人拿离世孩子手机去维修,称里面有视频想留个念想,独臂店主拒绝收钱

深圳晚报
2026-04-25 12:22:24
在俄罗斯社交平台发“666”将被定性为极端主义,已有数人被罚!

在俄罗斯社交平台发“666”将被定性为极端主义,已有数人被罚!

虔青
2026-04-24 15:14:28
眼红啊!从年薪20万到125万,一上海交大硕士特斯拉6年收入345万

眼红啊!从年薪20万到125万,一上海交大硕士特斯拉6年收入345万

火山詩话
2026-04-23 07:11:53
高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

新浪财经
2026-04-20 01:51:52
瞒不下去了,真的需要彻查了!

瞒不下去了,真的需要彻查了!

胖胖说他不胖
2026-04-25 14:12:40
一周最少8次,54岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听!

一周最少8次,54岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听!

健康之光
2026-04-13 09:01:59
2026-04-25 15:27:00
甲子光年
甲子光年
中国科技产业化前沿智库
3427文章数 9263关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

"蚊子大军"来袭北极圈也被攻破 各地疾控发出重要预警

头条要闻

"蚊子大军"来袭北极圈也被攻破 各地疾控发出重要预警

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

房产
健康
家居
数码
军事航空

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

干细胞如何让烧烫伤皮肤"再生"?

家居要闻

自然肌理 温润美学

数码要闻

3DMark macOS独立版终于发布:不用苹果商店、离线也能跑

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版