2026年4月24日,DeepSeek V4正式发布,距离V3恰好过去一年4个月。今天我们不泛泛的"猜V5",而是基于V4的真实技术选择做有据可依的略带大胆的推演。先搞清楚V4到底做了什么
在说V5之前,得先把V4摸透。首先,我们拿V3和V4做个比较,V4的架构跟V3相比还是有本质区别的。
核心参数对比
维度 V3(2024.12) V4-Pro(2026.04) V4-Flash 总参数 671B 1.6T 284B 激活参数 37B 49B 13B 注意力机制 MLA MLA + DSA 同架构蒸馏 上下文 128K 1M(标配) 1M 激活比 5.5% 3.1% 4.6%
有四个反直觉的点,值得细品。
一、参数效率的跨越。 参数从671B跳到1.6T,但激活参数只从37B涨到49B。他们没有走"更大"路线,走的是 更稀疏 路线。同样激活算力下,背后挂了一个大得多的知识存储空间,效率提升了约80%。
二、真正的架构创新是DSA。 V4最大的创新不是MLA的演进版,而是DSA——DeepSeek Sparse Attention。这是一种token级别的压缩加稀疏注意力机制。MLA解决的是KV缓存的存储问题,DSA解决的是注意力计算的平方复杂度问题。这才是V4能把1M上下文做成标配的真正底气。
三、Flash的推理能力逼近Pro。 Flash版只有13B激活参数,但推理能力接近Pro版的49B——说明在推理场景下,Pro那49B参数大部分是冗余的,知识检索才是Pro的真正优势。
四、一句被忽视的话。 V4公告里写到:"Already driving our in-house agentic coding at DeepSeek。"翻译成人话就是: 他们已经用V4在写V5的代码了。 这是个很强的自举信号。
定价上V4也是核弹级的: Flash输入$0.14/M tokens,输出$0.28/M tokens;Pro输入$1.74/M tokens,输出$3.48/M tokens。 对比GPT-4o($2.50/$10.00),V4-Pro已经便宜了60–65%。基于V4的真实选择,看V5的六个方向 一、注意力机制:从DSA到线性复杂度
V4的DSA把上下文从128K推到1M。但注意力的平方复杂度在更长上下文面前依然是瓶颈。
V5的方向大概率是: DSA 2.0,或某种形式的线性复杂度注意力 ,让上下文从1M跳到4–8M,计算成本不再随长度平方增长。
为什么这么判断?V4公告写的是"1M context is now the default"——不是说上限到1M了,是说1M是 默认配置 。能力远不止1M。
如果DeepSeek真的跑通了线性复杂度的注意力,那就是对Transformer架构的又一次底层创新,其意义不亚于MLA。
二、激活参数的效率竞赛
V3到V4最大的秘密不是参数变多了,而是参数用得更高效了。
V3:1B激活参数支撑18.1B总参。 V4:1B激活参数支撑32.7B总参——效率提升80%。
预计V5会将比值推到: 总参数5T+,激活参数60–80B,激活比降到1.2–1.6%。
这意味着路由机制需要本质突破——目前的Top-K路由可能不够用了。模型在处理一个token时,从5000亿参数里只挑60亿来算,挑选的精准度变得极其关键。V5可能会引入基于任务类型的先验路由,或更动态的专家分配机制。
三、推理能力:从双模式到分层预算
R1证明了GRPO+思维链可以做推理。V4把推理做进了基础模型,支持Thinking/Non-Thinking双模式。V5会进一步推进。
分层思考预算成为一等公民。 V4的API已经有 reasoning_effort: "high" 参数。V5会把这个做得更精细——从"不思考"到"深度思考"之间多个档位,每个对应不同的推理计算量。用户按场景付费:简单问答最便宜,复杂推理贵一点。这既是体验升级,也是商业策略——让推理成本不再是阻碍。
多模态推理。 不是"看懂图+会推理"的拼凑,而是"看图推理"融为一体。Janus系列目前还在独立推进,V5极有可能把多模态能力原生融合进基础模型。
搜索增强推理。 模型在推理中能自主调用外部知识源,不只是靠参数记忆。这对企业场景尤其重要——实时数据不能靠训练时的快照覆盖。
四、Agent原生能力
V4已经宣称"Open-source SOTA in Agentic Coding",并与Claude Code、OpenClaw等集成。V5的Agent能力会更底层:
- 代码执行回路成为模型原生能力 ——生成→执行→看结果→修正,不是框架层做的,是模型的固有行为。如果V5做到这一点,它就从"写代码的工具"变成"能debug的工程师"。
- 长周期任务规划 ——不是单次或数次推理,而是需要几小时甚至几天的多步骤任务,模型自己规划、执行、检查、调整,不需要人类中间介入。
- 多Agent协作中的"大脑"角色 ——V5不一定自己做所有事,但它能调度多个工具、子模型、外部API协同工作。这个能力跟它的超长上下文是配套的——1M+上下文才能承载复杂任务的全过程记录。
V4的价格已经是行业地震。V5我预测成本还能再降50%。
不是靠压缩模型本身,而是靠推理优化:KV缓存进一步共享(DSA给了这个基础)、预测性推理(常见query提前准备答案)、更激进的专家缓存(频繁激活的专家常驻内存,冷门延迟加载)。
DeepSeek的"基因"就是成本压缩——V3花$5.5M训出接近GPT-4性能的模型,已经震了业界一次。V4的具体训练成本没公布,但V4-Flash定价只要Pro的十二分之一,说明他们对推理成本的掌控力远超同行。
六、开源策略的微妙变化
V4开源了权重(HuggingFace,Apache 2.0),没有开源训练数据。
V5的预测:权重继续开源——这是DeepSeek的竞争壁垒,不会放弃;训练数据部分受限——不是不开源,是"只给构造方法,不给原始数据";技术报告更详细——V3的技术报告(58页)是行业标杆,V4的报告刚发布,V5的报告会更加系统。
⚠️ 需要注意一个风险:美国芯片出口管制如果进一步收紧,V5的训练进度可能受影响。V4用了1.6T参数/1M上下文的规模,计算量本身就比V3大得多。现在有说法,4继续在H800上训练,5预计在国产芯片上训练预测总表 维度 V4(已发布) V5(预测) 总参数 1.6T(Pro)/ 284B(Flash) 3–5T(Pro)/ ~500B(Flash) 激活参数 49B(Pro)/ 13B(Flash) 60–80B(Pro)/ ~20B(Flash) 注意力机制 MLA + DSA DSA 2.0 / 线性复杂度注意力 上下文 1M(默认) 4–8M(默认) 推理 Thinking / Non-Thinking双模式 精细化"思考预算"多档位 多模态 文本为主(Janus独立) 原生多模态(文本+图像+音频) Agent能力 集成Claude Code,开源SOTA 模型内生的agent能力 API价格(Flash) $0.14 / $0.28 再降50% 预计发布 2026/04/24(预览版) 推测2027 Q1–Q2 一个核心判断
V3到V4的跨越是 效率的跨越 ——同样算力,背后挂的模型更大;同样激活参数,能调用的知识更多。
V4到V5的跨越会是 能力的跨越 ——不是更大,而是 更自主、更agentic 。
前面提到的那句话值得再读一遍:V4已经在内部驱动agentic coding。这意味着V5的训练和优化很可能大量依赖V4本身作为工具,形成一个自我改进的飞轮。
真要盯的信号是: V5的技术报告里会不会出现"self-improving"或"self-play at scale"这类关键词。如果出现了,说明他们走通了模型自我进化的路,那就不只是V5升级的事了,是整个大模型范式的变化——从"人类训模型"到"模型训模型"。
本文基于DeepSeek V4预览版官方公告(2026年4月24日)、 DeepSeek API Docs及公开技术资料整理。V5预测为个人分析,仅供参考。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.