DeepSeek V4刚发，V5会往哪走？|推理|上下文|多模态|deepseek

DeepSeek V4刚发，V5会往哪走？

分享至

2026年4月24日，DeepSeek V4正式发布，距离V3恰好过去一年4个月。今天我们不泛泛的"猜V5"，而是基于V4的真实技术选择做有据可依的略带大胆的推演。

先搞清楚V4到底做了什么

在说V5之前，得先把V4摸透。首先，我们拿V3和V4做个比较，V4的架构跟V3相比还是有本质区别的。

核心参数对比

维度 V3（2024.12） V4-Pro（2026.04） V4-Flash 总参数 671B 1.6T 284B 激活参数 37B 49B 13B 注意力机制 MLA MLA + DSA 同架构蒸馏上下文 128K 1M（标配） 1M 激活比 5.5% 3.1% 4.6%

有四个反直觉的点，值得细品。

一、参数效率的跨越。 参数从671B跳到1.6T，但激活参数只从37B涨到49B。他们没有走"更大"路线，走的是 更稀疏 路线。同样激活算力下，背后挂了一个大得多的知识存储空间，效率提升了约80%。

二、真正的架构创新是DSA。 V4最大的创新不是MLA的演进版，而是DSA——DeepSeek Sparse Attention。这是一种token级别的压缩加稀疏注意力机制。MLA解决的是KV缓存的存储问题，DSA解决的是注意力计算的平方复杂度问题。这才是V4能把1M上下文做成标配的真正底气。

三、Flash的推理能力逼近Pro。 Flash版只有13B激活参数，但推理能力接近Pro版的49B——说明在推理场景下，Pro那49B参数大部分是冗余的，知识检索才是Pro的真正优势。

四、一句被忽视的话。 V4公告里写到："Already driving our in-house agentic coding at DeepSeek。"翻译成人话就是： 他们已经用V4在写V5的代码了。 这是个很强的自举信号。

定价上V4也是核弹级的： Flash输入$0.14/M tokens，输出$0.28/M tokens；Pro输入$1.74/M tokens，输出$3.48/M tokens。对比GPT-4o（$2.50/$10.00），V4-Pro已经便宜了60–65%。

基于V4的真实选择，看V5的六个方向一、注意力机制：从DSA到线性复杂度

V4的DSA把上下文从128K推到1M。但注意力的平方复杂度在更长上下文面前依然是瓶颈。

V5的方向大概率是： DSA 2.0，或某种形式的线性复杂度注意力 ，让上下文从1M跳到4–8M，计算成本不再随长度平方增长。

为什么这么判断？V4公告写的是"1M context is now the default"——不是说上限到1M了，是说1M是 默认配置 。能力远不止1M。

如果DeepSeek真的跑通了线性复杂度的注意力，那就是对Transformer架构的又一次底层创新，其意义不亚于MLA。

二、激活参数的效率竞赛

V3到V4最大的秘密不是参数变多了，而是参数用得更高效了。

V3：1B激活参数支撑18.1B总参。 V4：1B激活参数支撑32.7B总参——效率提升80%。

预计V5会将比值推到： 总参数5T+，激活参数60–80B，激活比降到1.2–1.6%。

这意味着路由机制需要本质突破——目前的Top-K路由可能不够用了。模型在处理一个token时，从5000亿参数里只挑60亿来算，挑选的精准度变得极其关键。V5可能会引入基于任务类型的先验路由，或更动态的专家分配机制。

三、推理能力：从双模式到分层预算

R1证明了GRPO+思维链可以做推理。V4把推理做进了基础模型，支持Thinking/Non-Thinking双模式。V5会进一步推进。

分层思考预算成为一等公民。 V4的API已经有 reasoning_effort: "high" 参数。V5会把这个做得更精细——从"不思考"到"深度思考"之间多个档位，每个对应不同的推理计算量。用户按场景付费：简单问答最便宜，复杂推理贵一点。这既是体验升级，也是商业策略——让推理成本不再是阻碍。

多模态推理。 不是"看懂图+会推理"的拼凑，而是"看图推理"融为一体。Janus系列目前还在独立推进，V5极有可能把多模态能力原生融合进基础模型。

搜索增强推理。 模型在推理中能自主调用外部知识源，不只是靠参数记忆。这对企业场景尤其重要——实时数据不能靠训练时的快照覆盖。

四、Agent原生能力

V4已经宣称"Open-source SOTA in Agentic Coding"，并与Claude Code、OpenClaw等集成。V5的Agent能力会更底层：

代码执行回路成为模型原生能力 ——生成→执行→看结果→修正，不是框架层做的，是模型的固有行为。如果V5做到这一点，它就从"写代码的工具"变成"能debug的工程师"。
长周期任务规划 ——不是单次或数次推理，而是需要几小时甚至几天的多步骤任务，模型自己规划、执行、检查、调整，不需要人类中间介入。
多Agent协作中的"大脑"角色 ——V5不一定自己做所有事，但它能调度多个工具、子模型、外部API协同工作。这个能力跟它的超长上下文是配套的——1M+上下文才能承载复杂任务的全过程记录。

五、成本碾压还能继续吗？

V4的价格已经是行业地震。V5我预测成本还能再降50%。

不是靠压缩模型本身，而是靠推理优化：KV缓存进一步共享（DSA给了这个基础）、预测性推理（常见query提前准备答案）、更激进的专家缓存（频繁激活的专家常驻内存，冷门延迟加载）。

DeepSeek的"基因"就是成本压缩——V3花$5.5M训出接近GPT-4性能的模型，已经震了业界一次。V4的具体训练成本没公布，但V4-Flash定价只要Pro的十二分之一，说明他们对推理成本的掌控力远超同行。

六、开源策略的微妙变化

V4开源了权重（HuggingFace，Apache 2.0），没有开源训练数据。

V5的预测：权重继续开源——这是DeepSeek的竞争壁垒，不会放弃；训练数据部分受限——不是不开源，是"只给构造方法，不给原始数据"；技术报告更详细——V3的技术报告（58页）是行业标杆，V4的报告刚发布，V5的报告会更加系统。

⚠️ 需要注意一个风险：美国芯片出口管制如果进一步收紧，V5的训练进度可能受影响。V4用了1.6T参数/1M上下文的规模，计算量本身就比V3大得多。现在有说法，4继续在H800上训练，5预计在国产芯片上训练

预测总表维度 V4（已发布） V5（预测）总参数 1.6T（Pro）/ 284B（Flash） 3–5T（Pro）/ ~500B（Flash）激活参数 49B（Pro）/ 13B（Flash） 60–80B（Pro）/ ~20B（Flash）注意力机制 MLA + DSA DSA 2.0 / 线性复杂度注意力上下文 1M（默认） 4–8M（默认）推理 Thinking / Non-Thinking双模式精细化"思考预算"多档位多模态文本为主（Janus独立）原生多模态（文本+图像+音频） Agent能力集成Claude Code，开源SOTA 模型内生的agent能力 API价格（Flash） $0.14 / $0.28 再降50% 预计发布 2026/04/24（预览版）推测2027 Q1–Q2 一个核心判断

V3到V4的跨越是 效率的跨越 ——同样算力，背后挂的模型更大；同样激活参数，能调用的知识更多。

V4到V5的跨越会是 能力的跨越 ——不是更大，而是 更自主、更agentic 。

前面提到的那句话值得再读一遍：V4已经在内部驱动agentic coding。这意味着V5的训练和优化很可能大量依赖V4本身作为工具，形成一个自我改进的飞轮。

真要盯的信号是： V5的技术报告里会不会出现"self-improving"或"self-play at scale"这类关键词。如果出现了，说明他们走通了模型自我进化的路，那就不只是V5升级的事了，是整个大模型范式的变化——从"人类训模型"到"模型训模型"。

本文基于DeepSeek V4预览版官方公告（2026年4月24日）、 DeepSeek API Docs及公开技术资料整理。V5预测为个人分析，仅供参考。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.