![]()
4月24日DeepSeek终于放出DeepSeek‑V4预览版本模型权重同步开源
为什么说“终于”?因为前一天 OpenAI 刚丢出 GPT‑5.5大家都在等 DeepSeek 送上重磅惊喜结果一看榜单知识推理维度相比还有一定差距但如果你只看这一项分数就划走可能会错过这代模型真正有意思的地方浙江大学人工智能学院的朱霖潮研究员一直跟踪关注 DeepSeek 的技术迭代帮大家把视线从榜单挪到另一个维度上来看看他的评析一个观察
如果只看评测榜单,DeepSeek-V4 是一份合格但不惊艳的成绩单。在 SimpleQA-Verified 上输给 Gemini 3.1 Pro 17.7 分,在 HLE 上输 6.7 分,在 Apex 上输给 GPT-5.4 Max 15.8 分。在知识推理这个最受关注的维度上,DeepSeek-V4-Pro-Max 相距第一梯队的距离没有缩小,DeepSeek 自己也承认差距大约 3 到 6 个月。
但换个角度看就不一样了。相较于 DeepSeek-V3.2,在 100 万 token 上下文长度下,DeepSeek-V4-Pro 仅需其 27% 的算力消耗和 10% 的 KV Cache 显存占用量。算力和显存同时降低近一个数量级,意味着在 KV Cache 受限的部署环境下,同等显存预算有望支撑 10 倍的上下文容量提升。这一点也直接体现在官方定价上:DeepSeek-V4-Flash 缓存命中价每百万 token 0.02 元,缓存未命中 1 元,输出 2 元;并且全系列模型缓存命中价已永久降至首发价的 1/10。配合实测约 90% 以上的缓存命中率,绝大部分 token 都按命中价计费,长上下文应用的常态成本被压到了一个新的量级。
举一个具体场景。最近爆火的 OpenClaw 是一个跑在本地的开源 AI 智能体,能管邮件、订机票、跑脚本,最受用户称道的是持久记忆和跨会话的连续性。这类智能体过去要做长期记忆,工程上的常规做法是每隔几轮就压缩历史、滚动摘要、丢弃早期对话,不然做单次推理成本就会随对话长度爆炸。当百万 token 跑得起且跑得便宜,这套复杂且有损的压缩流水线就可以拆掉,智能体能直接把几个月前的偏好、几十轮之前定下的目标、本地知识库里的全量上下文一起带在身上,大大提升长程任务的能力。
DeepSeek-V4的稀疏注意力
业界处理长上下文 O(L²) 复杂度的路线,目前至少有三条在并行推进。
一条是线性注意力。MiniMax-M1 用的闪电注意力(lightning attention)是这条路线的代表性方案之一,把 Softmax 函数换成核函数化逼近,O(L²) 直接降到 O(L),键值缓存也从随长度增长退化成固定大小的状态矩阵。
另一条是稀疏注意力。DeepSeek-V3.2 的 DeepSeek 稀疏注意力(DSA)是代表,保留 Softmax 的非线性,通过取前 k 个(top-k)把每个查询实际参与的键值数量从 L 降到 k。被选取的键值表达力没损失,但前 k 个之外的键值表达力彻底消失,密集的长程依赖容易被漏掉。
DeepSeek-V4 走的是第三条,多尺度压缩+稀疏/稠密混合。滑动窗口看最近的原始 token,压缩稀疏注意力(CSA)把序列压 4 倍后再取前 k 个,捕捉全局细节;重压缩注意力(HCA)把序列压 128 倍后做稠密注意力,保住全局粗粒度视野。两种注意力在层间交错,这一层因取前 k 个而漏掉的部分,下一层用全局视野整体感知来兜底。三条通路全都保留 Softmax,区别只在作用的键值粒度。代价是异构键值布局、三套计算核(kernel)、上下文并行(CP)切分都得分别处理,工程复杂度明显高于混合线性注意力。
DeepSeek-V4 的这种设计就是为了解决长上下文的问题。百万 token 上下文里的有效依赖呈现出两个特点,一是分布稀疏,真正影响当前查询的关键 token 占比可能只有千分之一甚至更低;二是位置不可预测,关键 token 既可能在临近窗口,也可能在序列开头、中段或远端。单一稀疏策略要么选得太狠漏掉关键内容,要么选得太宽算力又压不下来。DeepSeek的解法是承认没有一个稀疏策略能同时兼顾这两端,干脆把任务拆成两半:精确召回交给取前 k 个的稀疏选择,全局兜底交给重压缩后的稠密扫描。
基建和架构在协同优化
主流解读把 DeepSeek-V4 的工程纵深归结为团队工程能力强。笔者认为更准确的描述是,这种工程纵深来自于基础设施积累与架构选择之间的协同优化模式。架构选择会受基建能力约束,反过来基建建设也会被架构需求拉着走。
先看基建拉动架构的方向。DeepSeek-V3 时代铺好的FP8训练框架,让 DeepSeek-V4 可以在其上迭代出 FP4量化感知训练,且 FP4到FP8在满足特定缩放比例条件下能做近似无损的反量化,使量化感知训练流程很大程度复用现有 FP8框架。如果FP8通路没打磨好,DeepSeek-V4 不会选FP4这条路。同理,TileLang 作为通用计算核平台,让流形约束超连接这种需要 Sinkhorn-Knopp 投影和自定义反向传播的改动有了可能;如果纯靠手写 CUDA 实现流形约束超连接,工程量是巨大的。
反过来看架构拉动基建的方向。压缩稀疏注意力(CSA)和重压缩注意力(HCA)的混合注意力改变了 KV cache 的基本形态,异构键值缓存布局也就成了必须补上的系统能力。层与层之间的 KV 形状和访问模式已经不同,传统 PagedAttention 那套统一页面假设到了 DeepSeek-V4 这里就会失效。
![]()
由此可以推断,DeepSeek 内部的工作方式更接近架构组和基建组互相协同。架构组提新组件时心里有底层模块清单,基建组扩展能力时也知道架构下一步要做什么。DeepSeek-V4 真正的护城河不在某个单点优化上,而在这种协同优化的模式本身。
回到开头那个问题:DeepSeek-V4 评测榜单不惊艳,那它的真正分量在哪里?
在于它把长上下文的成本曲线压下来一个数量级。过去几年大家围绕短上下文设计的整套工程范式,比如检索增强生成做信息召回、滚动摘要做记忆压缩、文档切块再合并做长文档处理,本质上都是在算力约束下凑合用的绕路。当百万 token 不再是奢侈品,这些绕路也就失去了存在的理由,开源和闭源的竞争维度也随之多了一项:长上下文应用的单位成本。
至于 DeepSeek-V4 在知识推理层面,与其说是能力有差距,不如说是工程预算的分配结果。每一代模型的总训练算力都是有限的,DeepSeek 这一代把可观比例花在了长上下文架构验证、稀疏注意力调参、新一代基建打磨上,必然会挤占用于知识密集型多轮训练的算力。未来一两年,应用层最稀缺的是冷门事实的覆盖,还是百万级上下文跑得动、跑得便宜?DeepSeek 押的是后者。但更值得记下的不是这次结果本身,而是DeepSeek在DeepSeek-V3和DeepSeek-V4两代模型上攒下的底层模块库和协同设计的工作方式,这才是决定下一代竞争走向的东西。
![]()
4月17日,英伟达CEO黄仁勋上了一档知名科技播客。主持人问他:“如果中国AI公司DeepSeek把新模型跑在华为芯片上,这意味着什么?”
黄仁勋回答:“这对美国来说,将是一个可怕的结果。”
几天之后,华为昇腾官方就宣布,DeepSeek-V4在昇腾平台完成首发适配。架构上,DeepSeek-V4的细粒度专家并行(EP)通信方案在英伟达GPU和昇腾NPU上完成了双平台验证,最高带来1.96倍的推理加速;量化上,DeepSeek-V4采用的MXFP4是OCP标准格式,与昇腾950系列原生支持的MXFP4路径直接对接,昇腾950超节点2026年Q4上市后,DeepSeek-V4-Pro的部署成本将大幅下降。
当中国头部开源模型团队和中国头部AI芯片团队开始在架构层深度协同,封锁带来的边际效应只会越来越弱,中国AI产业依然具备自主突围、另起炉灶的坚定决心与硬核实力。
大模型的每一次迭代,背后是科研工作者日以继夜的坚守、突破极限的勇毅。DeepSeek-V4以“不诱于誉,不恐于诽,率道而行,端然正己”的定力,在喧嚣浪潮中沉潜深耕,走出了一条自主创新之路,开创了一个又一个“DeepSeek时刻”。
作为拔尖创新人才培养的重镇,浙江大学始终致力于把“会读书的人”培养成“会创造的人”。从“悟空”类脑计算机到“黑豹”四足机器人,从全球首例克隆牦牛到纳米LED,“杭州六小龙”浙大系占据半壁江山……这些引领性、开创性突破的背后,正是全体浙大师生校友用智慧和汗水践行“求是创新”的校训。
择一事,终一生,以笃行,尽精微。致敬创造者,创新不朽!
特别鸣谢:人工智能学院 朱霖潮文案整编:浙江大学融媒体中心学生记者团 伍闻博 | 董晓萌图片来源于网络今日编辑:浙江大学融媒体中心学生记者团 伍闻博责任编辑:董晓萌致敬劳动者!劳动让我们闪闪发光
来浙大,进入春夏能量场!
祝贺!他们获全国五一劳动节表彰
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.