网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4刚发,V5会往哪走?

0
分享至

2026年4月24日,DeepSeek V4正式发布,距离V3恰好过去一年4个月。今天我们不泛泛的"猜V5",而是基于V4的真实技术选择做有据可依的略带大胆的推演。
先搞清楚V4到底做了什么

在说V5之前,得先把V4摸透。首先,我们拿V3和V4做个比较,V4的架构跟V3相比还是有本质区别的。

核心参数对比

维度 V3(2024.12) V4-Pro(2026.04) V4-Flash 总参数 671B 1.6T 284B 激活参数 37B 49B 13B 注意力机制 MLA MLA + DSA 同架构蒸馏 上下文 128K 1M(标配) 1M 激活比 5.5% 3.1% 4.6%

有四个反直觉的点,值得细品。

一、参数效率的跨越。 参数从671B跳到1.6T,但激活参数只从37B涨到49B。他们没有走"更大"路线,走的是 更稀疏 路线。同样激活算力下,背后挂了一个大得多的知识存储空间,效率提升了约80%。

二、真正的架构创新是DSA。 V4最大的创新不是MLA的演进版,而是DSA——DeepSeek Sparse Attention。这是一种token级别的压缩加稀疏注意力机制。MLA解决的是KV缓存的存储问题,DSA解决的是注意力计算的平方复杂度问题。这才是V4能把1M上下文做成标配的真正底气。

三、Flash的推理能力逼近Pro。 Flash版只有13B激活参数,但推理能力接近Pro版的49B——说明在推理场景下,Pro那49B参数大部分是冗余的,知识检索才是Pro的真正优势。

四、一句被忽视的话。 V4公告里写到:"Already driving our in-house agentic coding at DeepSeek。"翻译成人话就是: 他们已经用V4在写V5的代码了。 这是个很强的自举信号。

定价上V4也是核弹级的: Flash输入$0.14/M tokens,输出$0.28/M tokens;Pro输入$1.74/M tokens,输出$3.48/M tokens。 对比GPT-4o($2.50/$10.00),V4-Pro已经便宜了60–65%。
基于V4的真实选择,看V5的六个方向 一、注意力机制:从DSA到线性复杂度

V4的DSA把上下文从128K推到1M。但注意力的平方复杂度在更长上下文面前依然是瓶颈。

V5的方向大概率是: DSA 2.0,或某种形式的线性复杂度注意力 ,让上下文从1M跳到4–8M,计算成本不再随长度平方增长。

为什么这么判断?V4公告写的是"1M context is now the default"——不是说上限到1M了,是说1M是 默认配置 。能力远不止1M。

如果DeepSeek真的跑通了线性复杂度的注意力,那就是对Transformer架构的又一次底层创新,其意义不亚于MLA。

二、激活参数的效率竞赛

V3到V4最大的秘密不是参数变多了,而是参数用得更高效了。

V3:1B激活参数支撑18.1B总参。 V4:1B激活参数支撑32.7B总参——效率提升80%。

预计V5会将比值推到: 总参数5T+,激活参数60–80B,激活比降到1.2–1.6%。

这意味着路由机制需要本质突破——目前的Top-K路由可能不够用了。模型在处理一个token时,从5000亿参数里只挑60亿来算,挑选的精准度变得极其关键。V5可能会引入基于任务类型的先验路由,或更动态的专家分配机制。

三、推理能力:从双模式到分层预算

R1证明了GRPO+思维链可以做推理。V4把推理做进了基础模型,支持Thinking/Non-Thinking双模式。V5会进一步推进。

分层思考预算成为一等公民。 V4的API已经有 reasoning_effort: "high" 参数。V5会把这个做得更精细——从"不思考"到"深度思考"之间多个档位,每个对应不同的推理计算量。用户按场景付费:简单问答最便宜,复杂推理贵一点。这既是体验升级,也是商业策略——让推理成本不再是阻碍。

多模态推理。 不是"看懂图+会推理"的拼凑,而是"看图推理"融为一体。Janus系列目前还在独立推进,V5极有可能把多模态能力原生融合进基础模型。

搜索增强推理。 模型在推理中能自主调用外部知识源,不只是靠参数记忆。这对企业场景尤其重要——实时数据不能靠训练时的快照覆盖。

四、Agent原生能力

V4已经宣称"Open-source SOTA in Agentic Coding",并与Claude Code、OpenClaw等集成。V5的Agent能力会更底层:

  • 代码执行回路成为模型原生能力 ——生成→执行→看结果→修正,不是框架层做的,是模型的固有行为。如果V5做到这一点,它就从"写代码的工具"变成"能debug的工程师"。
  • 长周期任务规划 ——不是单次或数次推理,而是需要几小时甚至几天的多步骤任务,模型自己规划、执行、检查、调整,不需要人类中间介入。
  • 多Agent协作中的"大脑"角色 ——V5不一定自己做所有事,但它能调度多个工具、子模型、外部API协同工作。这个能力跟它的超长上下文是配套的——1M+上下文才能承载复杂任务的全过程记录。
五、成本碾压还能继续吗?

V4的价格已经是行业地震。V5我预测成本还能再降50%。

不是靠压缩模型本身,而是靠推理优化:KV缓存进一步共享(DSA给了这个基础)、预测性推理(常见query提前准备答案)、更激进的专家缓存(频繁激活的专家常驻内存,冷门延迟加载)。

DeepSeek的"基因"就是成本压缩——V3花$5.5M训出接近GPT-4性能的模型,已经震了业界一次。V4的具体训练成本没公布,但V4-Flash定价只要Pro的十二分之一,说明他们对推理成本的掌控力远超同行。

六、开源策略的微妙变化

V4开源了权重(HuggingFace,Apache 2.0),没有开源训练数据。

V5的预测:权重继续开源——这是DeepSeek的竞争壁垒,不会放弃;训练数据部分受限——不是不开源,是"只给构造方法,不给原始数据";技术报告更详细——V3的技术报告(58页)是行业标杆,V4的报告刚发布,V5的报告会更加系统。

⚠️ 需要注意一个风险:美国芯片出口管制如果进一步收紧,V5的训练进度可能受影响。V4用了1.6T参数/1M上下文的规模,计算量本身就比V3大得多。现在有说法,4继续在H800上训练,5预计在国产芯片上训练
预测总表 维度 V4(已发布) V5(预测) 总参数 1.6T(Pro)/ 284B(Flash) 3–5T(Pro)/ ~500B(Flash) 激活参数 49B(Pro)/ 13B(Flash) 60–80B(Pro)/ ~20B(Flash) 注意力机制 MLA + DSA DSA 2.0 / 线性复杂度注意力 上下文 1M(默认) 4–8M(默认) 推理 Thinking / Non-Thinking双模式 精细化"思考预算"多档位 多模态 文本为主(Janus独立) 原生多模态(文本+图像+音频) Agent能力 集成Claude Code,开源SOTA 模型内生的agent能力 API价格(Flash) $0.14 / $0.28 再降50% 预计发布 2026/04/24(预览版) 推测2027 Q1–Q2 一个核心判断

V3到V4的跨越是 效率的跨越 ——同样算力,背后挂的模型更大;同样激活参数,能调用的知识更多。

V4到V5的跨越会是 能力的跨越 ——不是更大,而是 更自主、更agentic

前面提到的那句话值得再读一遍:V4已经在内部驱动agentic coding。这意味着V5的训练和优化很可能大量依赖V4本身作为工具,形成一个自我改进的飞轮。

真要盯的信号是: V5的技术报告里会不会出现"self-improving"或"self-play at scale"这类关键词。如果出现了,说明他们走通了模型自我进化的路,那就不只是V5升级的事了,是整个大模型范式的变化——从"人类训模型"到"模型训模型"。

本文基于DeepSeek V4预览版官方公告(2026年4月24日)、 DeepSeek API Docs及公开技术资料整理。V5预测为个人分析,仅供参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

凡知
2026-04-08 14:09:55
再见,掘金,王朝解体

再见,掘金,王朝解体

体育新角度
2026-05-03 19:24:30
1978年起陈云地位迅速上升,跨越多级“台阶”,背后原因何在

1978年起陈云地位迅速上升,跨越多级“台阶”,背后原因何在

鹤羽说个事
2026-04-30 22:47:23
温馨!胡明轩双手摸徐昕的头,杜锋与广东队球迷打成一片

温馨!胡明轩双手摸徐昕的头,杜锋与广东队球迷打成一片

体育哲人
2026-05-04 11:59:39
中东,突传大消息!美军将参与恢复霍尔木兹海峡商业通航!港股大爆发!

中东,突传大消息!美军将参与恢复霍尔木兹海峡商业通航!港股大爆发!

证券时报e公司
2026-05-04 10:13:00
赛车出现机械故障 德比斯气愤挥拳退赛 张雪:所有品牌都有这问题

赛车出现机械故障 德比斯气愤挥拳退赛 张雪:所有品牌都有这问题

风过乡
2026-05-03 21:32:50
太疯狂!五一捅了人窝了,无锡被“一亿人”攻陷,惠山古镇、南长街一片红!此刻,你挤在哪里?

太疯狂!五一捅了人窝了,无锡被“一亿人”攻陷,惠山古镇、南长街一片红!此刻,你挤在哪里?

锡望
2026-05-03 17:37:10
惋惜!上科大39岁助理教授,救上落水至亲后溺亡,知情人说出情况

惋惜!上科大39岁助理教授,救上落水至亲后溺亡,知情人说出情况

东东趣谈
2026-05-03 17:01:38
演员陈昊宇被曝在纽约私会他人男友?工作室:赴美全程为公务行程,期间仅与老友正常聚餐

演员陈昊宇被曝在纽约私会他人男友?工作室:赴美全程为公务行程,期间仅与老友正常聚餐

都市快报橙柿互动
2026-05-04 12:43:47
破“1”!余额宝突发!

破“1”!余额宝突发!

证券时报
2026-05-03 14:52:09
相处久了,你就会发现,一个男人也许会爱无数女人,但他心里总有一处角落,留给这两个女人

相处久了,你就会发现,一个男人也许会爱无数女人,但他心里总有一处角落,留给这两个女人

心理观察局
2026-05-04 08:51:06
蜜蜂没了,向日葵也“绝后”了!缅甸梅扎河流域万亩葵花田成空壳

蜜蜂没了,向日葵也“绝后”了!缅甸梅扎河流域万亩葵花田成空壳

缅甸中文网
2026-05-03 12:39:56
75年得知王恩茂境况,主席大怒:怎能当地委副书记?指示分配军队

75年得知王恩茂境况,主席大怒:怎能当地委副书记?指示分配军队

大运河时空
2026-05-03 13:45:03
打完“一针瘦”脉不跳了!警方摧毁特大假劣医美犯罪网络

打完“一针瘦”脉不跳了!警方摧毁特大假劣医美犯罪网络

21世纪经济报道
2026-05-03 22:41:37
相继送走患病8年的父母后,69岁的我决定:余生绝不养老

相继送走患病8年的父母后,69岁的我决定:余生绝不养老

人间百态大全
2026-05-01 06:40:03
罕见发火!王楚钦手指磕破流血砍分 临场一句话火遍全场!还暖心摸头安慰林诗栋!

罕见发火!王楚钦手指磕破流血砍分 临场一句话火遍全场!还暖心摸头安慰林诗栋!

好乒乓
2026-05-04 10:01:49
姆巴佩惹祸了!皇马更衣室对他度假感到愤怒,承诺努力赶上国家德比

姆巴佩惹祸了!皇马更衣室对他度假感到愤怒,承诺努力赶上国家德比

懂个球
2026-05-04 11:59:29
令人震惊的数据。。。

令人震惊的数据。。。

西楼饮月
2026-04-22 23:11:21
柳州命案背后惊人真相!4人遇难,真凶竟被反杀?

柳州命案背后惊人真相!4人遇难,真凶竟被反杀?

荆门热点
2026-05-04 08:49:14
刚刚,直线拉升!中东,最新消息

刚刚,直线拉升!中东,最新消息

中国基金报
2026-05-04 09:14:40
2026-05-04 14:43:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
541文章数 8359关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

媒体:见东南亚请求中国卖石油 日本罕见向俄罗斯购买

头条要闻

媒体:见东南亚请求中国卖石油 日本罕见向俄罗斯购买

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

严浩翔新歌,父母离婚17年矛盾升级

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
房产
旅游
公开课
军事航空

艺术要闻

奥托·冯·托伦:19世纪奥地利著名动物/风景画家

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

一大批女游客,把无锡雪浪山包了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版