网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek V4震撼发布！实现全球开源领先

2026-04-24 12:11:03　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas 好困

【新智元导读】让全球从春节苦等到四月的DeepSeek V4，终于来了！

就在刚刚，DeepSeek V4真的来了！

今天，那个曾经以一己之力打破闭源模型霸权的DeepSeek，带着DeepSeek-V4系列预览版，向全球开发者正式宣告——

百万级上下文（1M Context）的平民化时代，以及开源Agent能力、世界知识和推理性能上的新巅峰，已经到来。

DeepSeek V4，再度实现国内与开源领域的领先。

V4的技术报告，已经同步发布。

论文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro

性能比肩顶级闭源模型

DeepSeek-V4 系列包含两个版本：拥有1.6T总参数、49B激活参数的性能怪兽DeepSeek-V4-Pro，以及专为高效率、经济性设计的284B总参数、13B激活参数的DeepSeek-V4-Flash。

可以说，DeepSeek-V4-Pro已经达到了开源模型的新巅峰，对标全球顶尖闭源水准。

首先，V4-Pro在Agent能力上实现了跨越式突破，其Agentic Coding水平稳居开源界首位。

实测反馈显示，其编码体验已超越Sonnet 4.5，交付质量直追Opus 4.6（非思考模式），目前已成为公司内部Agent编程的首选模型。

其次，它具备深厚的世界知识储备。

在知识测评维度，V4-Pro显著领先同类开源产品，与闭源标杆Gemini-Pro-3.1的差距已缩减至极小范围。

另外，它还有顶尖的逻辑推理表现。

在数学、STEM及高难度竞赛代码等硬核领域，V4-Pro的表现不仅冠绝开源社区，更具备了挑战世界最强闭源模型的实战竞争力。

支撑这两个模型傲视群雄的，是其底层技术的「三大神技」：

混合注意力机制（CSA + HCA）

DeepSeek-V4 并没有盲目增加硬件投入，而是开创性地设计了混合注意力架构。

压缩稀疏注意力（CSA）对KV缓存进行token维度的压缩并结合DSA稀疏注意力；重压缩注意力（HCA）则进行更极致的压缩以维持稠密计算。

这种「长短结合」的策略，让模型在处理百万字上下文时，计算量和显存需求大幅降低。

流形约束超连接（mHC）

为了提升信号传播的稳定性并增强模型表达力，V4引入了mHC结构，升级了传统的残差连接。这让模型在深层网络中依然能保持卓越的建模能力。

Muon 优化器

引入全新的Muon优化器，让训练过程不仅收敛更快，且更加稳定。

正是这些结构创新，让DeepSeek-V4在推理效率上实现了质的飞跃。

在100万token上下文的极端场景下，DeepSeek-V4-Pro的单token推理计算量仅为前代的 27%，KV缓存占用更是缩减到了惊人的10%。

DeepSeek-V4-Flash

极致效能与性价比的完美平衡

相比于Pro版本，Flash版则是更快捷高效的经济之选。

尽管在世界知识的深度上略逊于Pro版本，但DeepSeek-V4-Flash保留了与之接近的逻辑推理水平。

受益于更精简的参数规模与激活机制，它能为用户提供响应更快、成本更低的API接入方案。

在处理基础 Agent 任务时，V4-Flash的表现与Pro版不相上下，但在应对极端复杂任务时仍存在进阶空间。

架构革新

重塑长上下文效率

DeepSeek-V4引入了革命性的注意力机制，通过在Token维度进行高效压缩，并结合 DSA稀疏注意力（DeepSeek Sparse Attention）技术，实现了全球顶尖的长文本处理能力。

这种创新大幅削减了对计算资源与显存的依赖。

即日起，1M（100万 tokens）超长上下文将成为DeepSeek官方服务的标准配置。

DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化

Agent能力深度优化

DeepSeek-V4 针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生态进行了深度适配。

在代码编写与自动化文档生成等场景下，其产出效率显著提升。

V4-Pro在特定Agent框架下自动生成的PPT页面实例

API全面升级，旧版模型倒计时

对于开发者而言，好消息是：API已经同步上线！

只需简单修改 model_name 即可接入这两款新旗舰：

追求性能：deepseek-v4-pro
追求效率：deepseek-v4-flash

特别提醒：原有的 deepseek-chat 和 deepseek-reasoner 模型名将作为V4的过渡别名（分别指向 V4-Flash 的非思考与思考模式），但这两个旧名称将于2026年7月24日正式停用。

论文解读

两种压缩，一套组合拳

V4-Pro中，CSA的压缩率为4，每4个token的KV缓存合并成一个条目。

压缩之后再通过Lightning Indexer对压缩后的KV条目打分，每个query token只选top-1024个条目做注意力计算。索引计算用FP4精度，超长上下文下开销极低。

HCA走另一条路。压缩率拉到128，比CSA激进得多，但不做稀疏选择，所有压缩后的KV条目都参与计算。极致压缩换全局视野。

两种机制交替堆叠，CSA精细检索，HCA全局感知，再加上每层128 token的滑动窗口捕捉局部依赖，三条路径协同。

算一笔账。

以常规BF16 GQA8（头维度128）作为基线，V4在100万token下的KV缓存只有基线的约2%。KV条目还采用混合精度存储，RoPE维度BF16，其余FP8，体积比纯BF16再砍一半。

推理端则把压缩KV和滑动窗口KV分开管理，支持磁盘级缓存存储，避免共享前缀的重复prefill。

mHC，6.7%的代价换来的稳定性

标准HC扩展残差流宽度来增强信息传递，但多层堆叠时数值会炸。

mHC的做法是把残差映射矩阵约束在双随机矩阵流形（Birkhoff多面体）上，确保谱范数不超过1，信号深层传播不发散。投影通过Sinkhorn-Knopp算法迭代20次实现。

工程代价可控，扩展因子只有4，经过融合kernel和选择性重计算优化后，额外墙钟时间仅6.7%。

训练万亿参数的「土办法」

Muon的核心是对梯度动量做Newton-Schulz正交化，V4用10次混合迭代，前8次快速收敛，后2次精确稳定。

但优化器只是一半的故事。V4报告披露了两个训练稳定性技巧。

Anticipatory Routing，把路由索引的计算和主干网络的更新解耦，用历史参数提前算好路由并缓存。系统在检测到loss spike时自动触发，日常开销可忽略。

SwiGLU Clamping，把SwiGLU线性分量钳制在[-10, 10]，门控上界钳制在10。简单粗暴但有效。

MoE工程上，V4开源了MegaMoE，把通信和计算融合进单个pipeline kernel，通用场景加速1.5到1.73倍，延迟敏感场景最高1.96倍。

专家分训，蒸馏合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先独立训练数学、代码、Agent等领域专家，再用一个学生模型对十几个专家做全词表logit蒸馏。

工程上的关键突破是，不缓存教师logits（显存放不下），只缓存最后一层隐藏状态，训练时按需重建logits，用TileLang专用kernel加速KL散度计算。

V4还引入了Generative Reward Model（GRM），让actor网络同时充当奖励模型，评判和生成能力联合优化，不再依赖传统标量奖励模型。

后训练阶段同步做了FP4量化感知训练，对MoE专家权重和CSA索引器做FP4量化，且FP4到FP8反量化无损，整个流程复用现有FP8框架。

DeepSeek

再度证实开源的力量

从V3的横空出世到V4的效率革命，DeepSeek始终坚持将最顶级的技术通过开源分享给社区。

DeepSeek-V4的上线，不仅是技术参数的跳跃，更是对「百万长上下文」和「高性能 Agent」这两大未来趋势的有力回应。

它证明了通过架构创新，我们可以在不牺牲性能的前提下，极大降低大模型的门槛。

现在，你可以在官方App或chat.deepseek.com立即开启1M上下文的全新体验。

这不仅仅是一个对话框，这是一个能装下整部百科全书、能理解万行代码逻辑的「第二大脑」。

参考资料：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

为什么这篇谷歌论文被称为「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟贴 26
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

SemiAnalysis CEO：模型"近两年最大能力跃迁"，让“执行变得极其廉价”，供应链"极度短缺"

华尔街见闻官方 2026-04-24 16:41:25
0 跟贴 0

机器人马拉松超越人类之后：本体走到尽头，智能成为下半场

机器之心Pro 2026-04-24 17:21:01
0 跟贴 0
滴滴、千问们的AI打车，可能找错了方向

钛媒体APP 2026-04-24 17:01:07
0 跟贴 0

Anthropic实锤Claude Code「降智」：就是这三个Bug造成的

机器之心Pro 2026-04-24 17:38:03
0 跟贴 0

这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0

割草机器人增长63.8%，行业增速拐点逼近下Yarbo能否突出重围？｜出海爆品先知

钛媒体APP 2026-04-24 17:23:31
0 跟贴 0
Deepseek V4第一波测评来了！

华尔街见闻官方 2026-04-24 16:51:56
0 跟贴 0
半挂模型玩具车买菜，要是超重了怎么办，雷军都不敢这么设计！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟贴 4
它喊着防止追尾，却又有意急刹，设计这个逻辑的公司真无敌了！

旅行指南者 2026-04-20 09:47:38
0 跟贴 0
欧盟批准向乌克兰提供900亿欧元贷款方案

新华社 2026-04-23 20:15:08
1560 跟贴 1560
像梁文峰一样诚实

象先志 2026-04-24 16:47:37
0 跟贴 0
性能真的不重要了吗？Jeff Dean给出反常答案

新智元 2025-12-28 17:20:51
0 跟贴 0
扬州宝应多份烈士资料放在废旧档案室多年；官方回应称“立即整改”，这批资料有保存价值

大风新闻 2026-04-24 15:23:05
87 跟贴 87
12000w切割详细参数

萧祃记录风土人情 2026-04-21 10:12:00
1 跟贴 1
天问三号任务计划于2031年前后携带火星样品返回地球

界面新闻 2026-04-24 09:46:31
1489 跟贴 1489
一文读懂：DeepSeek和GPT的新品，何以让股市沸腾？港股通恒生科技ETF（520840）大涨1.25%

每日经济新闻 2026-04-24 16:44:05
0 跟贴 0
特朗普用直升机送马杜罗？尴尬逻辑引热议

隐龙天下o 2026-04-23 06:43:03
0 跟贴 0
套现238亿元！江苏富豪完成宁德时代1.27%股份减持

界面新闻 2026-04-24 10:48:55
224 跟贴 224
黎巴嫩再成战场民众：在这没有人没有失去过亲近的人

新京报 2026-04-20 08:22:24
864 跟贴 864
「焦点复盘」三大指数缩量调整失守5日线，商业航天概念持续退潮，新版DeepSeek激活国产算力链

财联社 2026-04-24 17:38:06
0 跟贴 0
查办首例仿冒DeepSeek混淆案，北京向知产违法行为亮剑

新京报 2026-04-24 16:36:38
0 跟贴 0
“甘蔗运来我们都要！”广东化州一糖厂主动收购蔗农滞销果蔗，几百辆货车排队两三公里等候，厂里还派人为司机送三餐和水

极目新闻 2026-04-23 20:01:05
515 跟贴 515
“乌龙法规”引发关注，央媒：“空气法”荒唐剧映照形式主义积弊

澎湃新闻 2026-04-23 19:07:04
134 跟贴 134
#展开说# 北京车展人人卷参数别克至境E7上市“拼家庭”

速度计 2026-04-22 15:23:16
0 跟贴 0
大车也能很灵活！百万级驾控硬件加持，场地试驾智己LS8

汽车焦点 2026-04-23 17:00:02
0 跟贴 0
美国移民“金卡”项目启动至今仅一人获批

央视新闻客户端 2026-04-24 17:48:49
71 跟贴 71
“记者卧底桂林六日游低价团”后续：地接旅行社被罚30万并停业整顿

极目新闻 2026-04-24 08:03:58
358 跟贴 358
【硬核拆解Claude Code】为什么Claude是最强 Agent？四层架构 + 记忆压缩 +

卢菁老师 2026-04-20 11:08:43
0 跟贴 0
老人1500元卖掉自家大狗，小孙女舍不得哭得撕心裂肺，狗贩心软不收了，只要求退回1300元，“那200块就当补偿小姑娘吧”

观威海 2026-04-24 10:56:04
4 跟贴 4
制作直升机遥控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟贴 0
记得住、答得快、用得省：HERMES 流式视频理解实时响应提速10倍

机器之心Pro 2026-04-24 17:37:36
0 跟贴 0
精度与性价比的跨国共鸣海外市场青睐56式半自动的实用逻辑

武器知识 2026-04-23 23:51:18
2 跟贴 2
峰谷电价将调整

无线徐州 2026-04-23 21:25:06
230 跟贴 230
父亲死后，我花六年找回他的语音

心事寄山海 2026-04-21 17:24:42
0 跟贴 0
CJ称赞库明加：他拥有来自勇士的冠军基因如今终于找到了归宿

北青网-北京青年报 2026-04-24 13:56:03
55 跟贴 55
140年的故事，奔驰重塑品牌叙事逻辑

只懂车 2026-04-24 01:03:58
0 跟贴 0
全新问界M9硬件架构再升级，40颗传感器为自动驾驶做准备？

Autolab 2026-04-22 17:13:00
0 跟贴 0

马斯克：约400万辆特斯拉HW3车型将无法获得FSD

马斯克：约400万辆特斯拉HW3车型将无法获得FSD

CNMO科技

2026-04-23 07:44:09

审判结果出炉，81岁杜特尔特输了，莎拉再遭弹劾，只有他逃过一劫

审判结果出炉，81岁杜特尔特输了，莎拉再遭弹劾，只有他逃过一劫

有范又有料

2026-04-24 17:10:50

中超下课第一人或诞生！曝浙江不胜罗斯将下课，兄弟德比再添看点

中超下课第一人或诞生！曝浙江不胜罗斯将下课，兄弟德比再添看点

奥拜尔

2026-04-24 14:54:22

我攒了八十万养老钱，告诉女儿只有二十万，第二天在枕头底下发现遗嘱，我后悔没跟女儿说实话

我攒了八十万养老钱，告诉女儿只有二十万，第二天在枕头底下发现遗嘱，我后悔没跟女儿说实话

麦子情感故事

2026-04-23 17:24:15

炸锅！美部长当众承认：中国一颗H200芯片没买

炸锅！美部长当众承认：中国一颗H200芯片没买

林子说事

2026-04-23 17:52:16

内塔被上百国通缉，中方打破沉默，在安理会动手，明牌清算以色列

内塔被上百国通缉，中方打破沉默，在安理会动手，明牌清算以色列

爱意随风起呀

2026-04-24 13:30:09

5.2米！吉利正式官宣：新车25.98万起

5.2米！吉利正式官宣：新车25.98万起

手机评测室

2026-04-24 11:48:54

经济围困取代军事打击：特朗普逼伊朗自爆，这招更毒

经济围困取代军事打击：特朗普逼伊朗自爆，这招更毒

高博新视野

2026-04-23 07:30:12

内维尔和21年前与自己发生冲突的埃弗顿球迷见面：你这个混蛋

内维尔和21年前与自己发生冲突的埃弗顿球迷见面：你这个混蛋

懂球帝

2026-04-24 09:16:18

美国知名UFO研究者在警员面前自杀，去世前一天直播中称“度过了艰难的一周”

美国知名UFO研究者在警员面前自杀，去世前一天直播中称“度过了艰难的一周”

红星新闻

2026-04-24 12:07:39

森林狼116-96再胜掘金，2-1！这一战看清5个现实：掘金彻底后悔

森林狼116-96再胜掘金，2-1！这一战看清5个现实：掘金彻底后悔

毒舌NBA

2026-04-24 12:19:34

忠县惊现特大谋杀案！副县长办公室内惨遭杀害，真相引人深思！

忠县惊现特大谋杀案！副县长办公室内惨遭杀害，真相引人深思！

人生录

2026-04-24 09:13:06

美军扣押伊朗货轮，中国商品就在船上，不到1天，中国就表态了

美军扣押伊朗货轮，中国商品就在船上，不到1天，中国就表态了

泠泠说史

2026-04-22 21:27:25

为啥末代皇帝往往是昏君看网友分析思想境界都上了一个大台阶

为啥末代皇帝往往是昏君看网友分析思想境界都上了一个大台阶

侃神评故事

2026-04-23 15:40:03

回加拿大生活的大山，60岁须发皆白很沧桑，重庆妻子仍风韵犹存

回加拿大生活的大山，60岁须发皆白很沧桑，重庆妻子仍风韵犹存

胡一舸南游y

2026-04-04 15:41:43

我有罪，大导演昆汀花1万美金，在包房舔脚半小时，直到皮肤起皱

我有罪，大导演昆汀花1万美金，在包房舔脚半小时，直到皮肤起皱

西楼知趣杂谈

2026-04-20 08:40:47

事态升级，中方开打第二波反击，高市或突然辞职，石破茂已扛旗

事态升级，中方开打第二波反击，高市或突然辞职，石破茂已扛旗

林子说事

2026-04-24 16:28:00

两只大熊猫将前往亚特兰大，外交部：将为增进中美人民友谊做出新贡献

两只大熊猫将前往亚特兰大，外交部：将为增进中美人民友谊做出新贡献

澎湃新闻

2026-04-24 15:30:30

爱新觉罗·启骧逝世

海峡网

2026-04-24 12:11:11

伊朗用血泪给中国换来了教训：最大的敌人，并不是美国和以色列

伊朗用血泪给中国换来了教训：最大的敌人，并不是美国和以色列

墨印斋

2026-04-23 15:42:00

AI产业主平台领航智能+时代

15053文章数 66799关注度

往期回顾全部

科技要闻

DeepSeek V4牵手华为，价格依然"屠夫级"

头条要闻

媒体:伊朗将恢复往返中国航班霍尔木兹决战或收兵了

头条要闻

媒体:伊朗将恢复往返中国航班霍尔木兹决战或收兵了

体育要闻

里程碑之战拖后腿，哈登18分8失误

娱乐要闻

停工16个月！赵露思证实接拍新剧

财经要闻

19家企业要"铝代铜"，格力偏不

汽车要闻

零跑Lafa5 Ultra北京车展上市：11.88-12.48万

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

教育

游戏

时尚

本地

房产要闻

三亚安居房，突然官宣！

教育要闻

山东省“书香校园”联盟成立

数毛社锐评PS独占第一方新作！虚幻5粒子特效天花板

水晶专场 || 一眼就沦陷的绝美水晶，百元级的快乐

本地新闻

云游中国｜逛世界风筝都留学生探秘中国传统文化

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版