DeepSeek V4是怎么训练出来的？58页论文深入解读|翻译|编程|数学|上下文|新论文|deepseek

分享至

劝退提醒：

1、这是一篇很长很长的文章，会深入到DeepSeek V4论文中涉及到的各种细节，如果你不感兴趣，只是想知道模型跑分的话，没必要读

2、我也没那么好的技术能力，这是花了2000万Opus4.7 tokens读完内容，并做了73页PPT之后形成的理解

3、我多少对DeepSeek有些滤镜，我很喜欢这个公司的做派和风格，所以表达未必客观中立

如果这种情况下，你还愿意一起往下探的话，那我们开始吧！

在我看来，DeepSeek不是一个冲破天花板的SOTA模型。它真正的价值是把百万上下文、Agent原生能力、能接受的价格这三件事第一次绑在了一起。

而且这次从发布时间和节奏来说也挺有趣的，其实本来按照大家的预期，V4应当在春节前后发的，实际看来也差不多是那会儿完工。他们论文中对标的也是2月那会的Claude Opus 4.6和GPT-5.4。但它实际发布卡到了现在，中间又出了Opus 4.7和GPT-5.5。等它正式亮相，对标对象已经换人了。

DeepSeek自己解释说是为了更好地适配国产芯片。害，行吧，也希望国产芯片好好适配下DeepSeek。

其实今年1月份时，我已经连着写了三篇DeepSeek论文解读：mHC、Engram、OCR 2。当时我的判断是这些技术大概率都会进V4。现在V4论文打开，mHC进来了，其他一些思路也能看出端倪。这篇文章我会顺着这条线讲，让之前读过那几篇的朋友能看到完整的故事线。

再说结论

我们需要重复下开头的核心结论，以这个视角的话，我们会对DeepSeek V4会有个更合理的预期，那就是

这不是一个冲破AGI天花板的世界最佳模型，但属于是一个让普通开发者第一次能够放心地用上100万上下文Agent模型的发布。

这两者的差别非常大。

前者是冲顶峰的叙事，需要在各个benchmark上全面击败Opus 4.7、GPT-5.5、Gemini 3.1 Pro。V4还做不到。

后者是抬地板的叙事。100万token上下文这件事，之前不是没有模型能做到，但要么极贵（Opus、DeepSeek那档），要么效果会显著衰减（很多国产模型128K以上就明显掉分）。V4做的事情是把「100万长上下文」+「Agent多步调用能力」+「能接受的价格」这三件事第一次组合到一起。

对闭源旗舰来说，V4不构成威胁。对一个想在产品里塞入长上下文的独立开发者来说，V4意味着几乎所有的上下文节省工作都可以先不做了（对的，RAG和很多别的AI叙事一样，只要你不学，等着等着你就可以不必学了）

业内有个说法：闭源模型卷能力天花板，开源模型卷地板，地板抬高的速度决定AI应用爆发的规模。V4把这个地板往上抬了抬。

V4-Pro 和 V4-Flash：两个定位不一样的模型

这次DeepSeek发的是两个模型。

V4-Pro的总参数量比V3的671B翻了2.4倍。激活参数从37B涨到49B，只多了三成左右。走的是「稀疏度再提高」的路线。

这里要稍微解释一下MoE模型的工作方式。V4-Pro一共有300多个专家（routed experts）加上1个共享专家。每次处理一个token的时候，它不是把所有专家都调动起来，而是只激活其中6个+共享专家，一共7个专家参与回答。这有点像一个有384位专家的公司，每个决策只召集7个人开会，不搞全员表决。激活的参数量少，推理速度就快，成本也能压下来。

V4-Pro的定位是「开源阵营里能跟闭源旗舰掰手腕的那个」。但DeepSeek自己在论文里也诚实地说了一件事：因为现在高端算力受限，Pro的服务吞吐很有限，所以Pro版本的API价格目前不算便宜，预计下半年才能降下来。

V4-Flash是真正符合DeepSeek一贯风格的那个模型。它的参数规模是V4-Pro的约六分之一，但在很多基础能力上已经反超了V3.2。这意味着架构改进和数据质量的收益，足够抵消参数规模的差距。Flash的价格相比同类快速模型，大概是他们的1/7到1/18。

如果你是独立开发者，我的建议很明确：AI编程、写作、复杂任务、关键决策场景用Opus 4.7这类；批量任务、Agent后台、数据处理用V4-Flash。

架构动了哪些刀

V4没有推倒V3重来。MoE框架沿用的还是DeepSeekMoE，MTP模块没动，训练细节也大多延续V3。真正大改的地方只有三处：

残差连接升级成mHC
注意力拆成CSA+HCA的混合架构
优化器从AdamW换成Muon

这三处改动各自解决一个具体痛点。残差连接在堆深时数值不稳定，限制了把模型做大；传统注意力在百万token长上下文下KV cache爆炸，算力根本扛不住；AdamW在超大规模MoE训练上收敛慢、偏科严重。

V4相当于把V3的三个瓶颈逐一拆掉。

mHC：给残差连接加一道只准收缩不准放大的护栏

mHC我在1月那篇mHC论文解读里已经完整讲过了，这里长话短说。

残差连接是深度学习用了整整十年的基础设计。2015年何恺明的ResNet开始，到现在的每一个大模型都离不开它。它做的事情，用一句话说就是给信号开了一条「快车道」：不管中间那些层学到了什么，原始信号都能直接顺着这条高速公路原封不动传到后面。这就是所谓的「恒等映射」。

这个设计本身没问题。问题出在对它的第一次升级上。2024年底，字节Seed团队发了一篇叫Hyper-Connections（HC）的论文，后来中了ICLR 2025。HC把单通道的残差流扩展成多通道，让模型自己学习最优的连接方式。DeepSeek一开始也是沿着这条路线往下走的，但踩到了HC的一个致命缺陷：训练不稳定。

不稳定到什么程度？DeepSeek在1月那篇mHC论文里给过一个很震撼的数字：在27B模型上，HC的信号放大倍数峰值达到3000倍。也就是说，信号在网络里传着传着，被放大了3000倍，梯度也随之被放大3000倍。训练到某一步突然崩掉是家常便饭。

mHC解决这个问题的思路，我觉得最形象的说法还是1月文章里那句：给残差连接加了一道「只准收缩不准放大」的数学护栏。

用一个画面讲清楚。信号在网络里一层层往下传，可以想象成把一杯水倒进下一个杯子。HC的做法是把一根水管变成四根，每根流量让模型自己学。灵活是灵活了，但没人管总量。倒着倒着水越倒越多，到第60层的时候已经是原来的3000倍，杯子直接爆了。

mHC的做法是强制每一层倒水都守恒。不管四根水管怎么分配、怎么混合，进多少水就出多少水，一滴不多一滴不少。

这个约束的数学工具叫「双随机矩阵」，名字吓人，本质就是一张分配表：每一行加起来等于1，每一列加起来也等于1。这两个条件加起来，天然保证了水不会凭空变多。更舒服的是，两张双随机矩阵乘在一起还是双随机矩阵，所以不管你堆多少层，守恒这件事都不会失效。

代价是模型不能自由学这张表，每一层都要用一个叫Sinkhorn-Knopp的算法迭代20次，把学出来的东西压回守恒的形状。相比训练崩掉的损失，这个代价不算什么。

mHC带来的直接结果是：V4能把模型从V3的671B推到1.6T，参数量2.4倍增长，训练稳定性反而比V3更好。

这是理解V4能「做大」的第一把钥匙。

CSA + HCA：读一本800页的书，先翻目录再精读

这是整篇论文我觉得工程含量最高的地方，也是V4百万上下文能落地的核心。

先说清楚一件事：为什么100万上下文这么难做？

标准的注意力机制，每个新来的token都要和前面所有token算一次内积。如果把4K上下文换成100万上下文，需要算的内积数量是4000倍，显存占用也是4000倍。粗略估算下来，100万上下文的单次推理成本比4K高约6万倍。这堵「算力墙」和「显存墙」加起来，是大多数模型在128K-200K就停住的原因。

V4的解法是把注意力机制拆成两种，在Transformer不同的层里交替使用。

CSA（Compressed Sparse Attention）走精细路线。它把每m个token压缩成1个块，然后用一个叫Lightning Indexer的小模块算每个query和每个压缩块的相关性分数，只挑分数最高的top-k个块去做真正的注意力计算。

HCA（Heavily Compressed Attention）走粗略路线。它的压缩率m'远比m大（通常是几十倍），但不做稀疏筛选，query会dense地把所有压缩块都扫一遍。牺牲细粒度，换极致的KV cache压缩。

我觉得这两种注意力最好的比喻就是读一本800页的书。

你不会逐字读完。大概率是这样：先翻目录，定位到有用的那几章；翻到那一章后扫一下小标题，定位到第几页；最后才精读那几页。这是一个先粗后细的过程。

V4把这个动作拆成了两种独立的机制，交替安排在不同的层里：

CSA做的是「扫小标题定位」：先把每64个token揉成一块，给每块打分，挑出最相关的几块去精读
HCA做的是「翻目录看大意」：直接把1024个token压成一块，一本800页的书可能只剩几十块大摘要，每个新来的token都把这几十块全扫一遍

两者加起来，V4在100万上下文下的单次推理成本，只有V3.2的约1/4。KV cache占用只有传统BF16 GQA8 baseline的约2%。

把50份压成1份，这是百万上下文真正能跑起来的数学原因。

论文里还有一堆工程细节，比如两种注意力都用Shared KV MQA进一步省cache，都加了sliding window分支保证局部细节不丢，都用了attention sink让query可以「弃权」。这些工程活不好解释，但每一个都在扣效率。

这是理解V4能「读长」的第二把钥匙。

Muon：别每个旋钮单独调，整组一起掰

Muon是V4用来替代AdamW的优化器。改动的技术深度很足，但可以用画面感拆开说。

先说优化器是干嘛的。模型训练就一句话：猜一个答案，对照正确答案，根据错的方向调整自己。优化器决定的就是「具体怎么调」。

AdamW是过去十年行业默认的优化器。它的逻辑是：模型内部有几十亿个旋钮要调，每个旋钮单独看它过去抖得厉害不厉害，抖得厉害就调慢一点，抖得少就调猛一点。听起来挺合理。

问题是这些旋钮不独立。它们是同一台机器上的几十亿个零件，彼此联动。AdamW单独看每个旋钮的历史做判断，结果就是模型在参数空间里走出来的轨迹是个极度扁的椭圆：少数几个「热门方向」步子迈得特别大，推到病态的程度；其他方向几乎没动过，等于没学。

说得更直白点，AdamW训出来的模型会偏科。

Muon反过来想。它不看单个旋钮，而是看这一整组旋钮合起来在往哪个方向走，然后把这个方向的更新强行「拉平」：原本迈得特别大的方向压一压，几乎没动的方向拉一拉，让每个方向都走一样远。数学上这个操作叫「正交化」，画面感上就是把原本歪扁的椭圆硬掰成一个正圆。

好处是什么？原本被AdamW淹没的冷门方向，现在能和热门方向拿一样的步长。模型探索范围更广，收敛更稳。

Muon天生有个成本问题：每一步都要把椭圆掰成正圆，直接算要做矩阵分解，太贵。V4用了一个近似办法（Newton-Schulz迭代），10步搞定一次掰正，前8步用激进系数快速逼近，后2步切换温和系数做精修。工程上刚好不贵。

一个细节：V4没把所有参数都交给Muon。embedding、prediction head、RMSNorm这些本来就不是矩阵、没有「方向」概念的参数，还是AdamW管。Muon和AdamW各管一摊。

这是理解V4能「训深」的第三把钥匙。

1.6T怎么训稳的：两个他们自己也不懂的trick

把模型从671B推到1.6T，光有mHC还不够。训练1.6T的MoE时，V4团队遇到了loss spike（训练损失突然飙升，前几轮学的东西都被噪声污染），简单的回滚保存点也救不回来，刚回滚完没多久又崩。

他们最终用了两个办法把训练救回来。

一个叫Anticipatory Routing（预判式路由）。MoE模型里有个「路由器」负责每一步挑哪几个专家上场，这个路由器本身也是学出来的。训练崩溃的恶性循环是这样：某一步某个专家输出了一个异常大的数，这个异常让路由器误以为「这个专家真强」，下一步派给它更多任务，它输出更离谱的数，路由器越挑越偏，训练崩了。

解法特别巧：让路由器用「昨天的脑子」做「今天的决定」。主干网络的更新和路由器解耦，主干用当前参数算，但路由器挑专家时查的是前几步的历史参数。今天网络再怎么抽风，路由器用的是没被污染的旧脑子，恶性循环就断了。

另一个叫SwiGLU Clamping。SwiGLU是模型里的激活函数，可以理解为每个神经元的「水龙头」。正常情况水龙头开多大都行，但在1.6T这个规模上，某些神经元会突然爆出极大的数值，把整个训练带崩。DeepSeek的做法简单粗暴：给SwiGLU内部的几个关键数值强行加一个上下限（-10到10之间），哪怕某个神经元想输出一万，也只能给你10。

这两个trick为什么有效？DeepSeek自己在论文里说，他们也不完全清楚。原话是「the underlying principles of these mechanisms remain insufficiently understood」。

他们只知道：用了，有效，就这么用。至于为什么，希望社区一起探索。

我觉得这个细节值得单独拎出来讲。

过去我们看到的很多技术报告，总是在事后给方法找一套漂亮的理论解释，好像研究者从一开始就想得很清楚。但实际工程里，很多时候是先做出来再理解。DeepSeek不藏这个，白纸黑字写进论文里。

这种坦诚在国内团队里并不多见。今年1月我写R1论文更新那篇时说过，DeepSeek的「Open」不是做到行业平均水平就够了，而是包括那些失败的尝试、没搞懂的trick、踩过的坑都一并开出来。

V4这篇报告延续了这个风格。

训练数据：32T tokens，反AI生成、加Agent、加多语言

V4的预训练数据比V3更大（33T vs V3的14.8T），也更讲究。几个关键动作：

反模型坍缩。互联网语料里现在充斥着大量AI生成的文本。如果不做过滤，训练出来的模型会出现「模型坍缩」（model collapse）：每一代都在上一代的AI输出上训练，能力会越来越差。DeepSeek专门做了一套过滤，把批量自动生成和套模板的内容拦掉。

中期训练引入Agent数据。工具调用轨迹、多步推理、搜索片段这些，不能靠后训练硬掰，必须在预训练中期就喂进去。这是V4-Flash的Agent能力跃升的关键原料。

多语言扩容。扩充了除中英外的长尾语言，覆盖不同文化的知识。所以你用V4做翻译、或者查一些非英文语言的长尾知识，效果会比V3好不少。

精选长文档。科学论文、技术报告这类「学术价值独特」的材料被重点收录。

训练数据规模上，Pro版本是33T tokens，Flash版本是32T tokens。分词沿用V3的128K词表。

序列长度是分阶段扩展的：从4K起步，逐步扩到16K、64K、1M。稀疏注意力也是分阶段引入：前1T tokens先用dense attention热身，到64K序列长度时切到sparse attention。这种渐进式训练在超长上下文模型里已经是事实标准，但V4的阶段切换时机设计比较精细。

后训练：Specialist + OPD，一个被低估的范式变化

如果说架构改动是V4最显眼的变化，那后训练范式的变化其实是这篇报告最深刻的变化。V4在后训练章节的第一句话就很有趣：

the mixed Reinforcement Learning (RL) stage was entirely replaced by On-Policy Distillation (OPD).

翻译过来就是：混合RL阶段被彻底替换成在策略蒸馏。

这句话我觉得像是范式级别的转变了。

为什么要替换

传统后训练是「SFT+RLHF混炼」的路子：一个大杂烩数据集，SFT打底，再用一个reward model做RL。问题是什么？

数学、代码、Agent、对话这些能力在RL阶段会互相打架。你调数学的reward权重，代码能力可能就掉了；你加Agent数据，对话又变笨。多任务联合优化的「负迁移」问题，几乎每个做过后训练的团队都踩过坑。

DeepSeek的解法是把「联合优化」拆成「分治+合并」：

Stage 1 Specialist训练：每个领域（推理、数学、代码、Agent、通用对话）单独训练一个专家模型。先SFT，再用GRPO做RL。每个专家只管自己那块，reward signal清晰，不用跟其他领域折中。

Stage 2 On-Policy Distillation：把十多个专家模型当老师，通过反向KL loss蒸馏出一个统一的学生模型。

这个拆分的妙处在于：RL只在专家阶段做，最终的学生模型不做RL，只做蒸馏。RL的训练不稳定性被隔离在专家模型内部，学生模型通过更稳定的蒸馏loss拿到所有专家的能力。

反向KL是关键

OPD的技术细节里，有一个点特别值得讲：为什么用反向KL而不是正向KL？

正向KL是让学生去cover老师的所有模式，结果往往学成四不像。反向KL是让学生集中在老师分布的高概率区域，学生会自动「选老师」：数学任务时对齐数学专家，代码任务时对齐代码专家。

这个「自动路由」的特性，是多老师蒸馏能跑通的关键。

为什么这个范式重要

讲到这里可能有朋友要问：这个东西对独立开发者有什么意义？

我的判断是，这可能是比MoE更深刻的范式变化。

MoE是推理时混合（runtime mixture），OPD蒸馏是训练时混合（training time mixture）。后者的组合空间大得多。

这个范式天然适合几类场景：

小团队：没钱一开始就训大模型，但可以训多个小specialist，最后蒸馏融合
垂直应用：法律/医疗/代码各训一个专家，最后合并
持续学习：要增加新能力时，训一个新专家加入蒸馏池就行，不破坏老模型

只要你能训出专家，就能通过OPD合进来。未来想加新能力（比如「写毛笔字」「解几何题」），路径很清晰：训专家→加入蒸馏池。这比RLHF要改reward、要重跑全流程友好得多。

这个范式会不会成为新的行业标准，目前还不好说。但V4已经用了十多个专家模型做OPD，证明在万亿参数级别它是可行的。

评测结果：强在哪，弱在哪

评测是V4论文里最重要的部分之一，也是最容易被误读的部分。我直接把我的判断列出来。

数学推理：反超闭源旗舰

V4-Pro在几个数学类benchmark上拿到了开源阵营前所未有的高分：

Benchmark

V4-Pro-Max

对比

Putnam-2025（形式化证明）

120/120 满分

超过Axiom和Seed-Prover

Apex Shortlist

90.2

全场第一，超过Gemini 3.1 Pro

IMOAnswerBench

89.8

接近GPT-5.4的91.4

HMMT 2026 Feb

95.2

仅次于GPT-5.4

Codeforces的竞赛评分V4-Pro能达到3206分，对应人类选手第23名。这是非常离谱的水平。

编程：LiveCodeBench和Codeforces双第一

V4-Pro在LiveCodeBench拿到93.5分，Codeforces Rating 3206。DeepSeek论文里明确写了，这是第一次开源模型在这两项任务上追平闭源。

但注意一个细节：SWE系列（真实工程代码任务）就没那么亮眼了。SWE Verified 80.6分接近Opus 4.6的80.8但没超过，SWE Multilingual也略输。

这就对应上了DeepSeek论文里自己的总结：V4模型非常擅长做题，但品味上还差一些火候。竞赛类任务有明确答案，RL能反复打磨；工程类任务要综合考虑代码风格、架构、可维护性，这些品味层面的东西现在的RL训练还吃不透。

Agent：全方位落后闭源

这是V4最弱的一块。

Benchmark

V4-Pro-Max

最强

Terminal Bench 2.0

67.9

GPT-5.4: 75.1

BrowseComp

83.4

Gemini 3.1: 85.9

HLE w/ tools

48.2

Opus 4.6: 53.1（甚至输给K2.6）

GDPval-AA (Elo)

1554

GPT-5.4: 1674

Terminal Bench 2.0落后GPT-5.4整整7分，HLE w/ tools落后Opus 4.6整整5分。DeepSeek论文里非常诚实地写了：「所有开源模型仍落后闭源对手」。

唯一的亮点是MCPAtlas Public（73.6），仅次于Opus的73.8。说明V4在通用工具调用和MCP服务上泛化能力不错，不是只在内部框架里打鸡血。

真实编程任务：接近Opus 4.5，差Opus 4.6 Thinking 13分

DeepSeek自己拿200多个真实的内部R&D编程任务做了测试，来自50多位工程师日常工作中提的真实需求，覆盖PyTorch、CUDA、Rust、C++：

模型

R&D编程通过率

Claude Haiku 4.5

13%

Claude Sonnet 4.5

47%

DeepSeek V4-Pro-Max 67%

Claude Opus 4.5

70%

Claude Opus 4.5 Thinking

73%

Claude Opus 4.6 Thinking

80%

V4-Pro的67%已经超过Sonnet 4.5（47%），接近Opus 4.5（70%），但距离Opus 4.6 Thinking（80%）还差13个百分点。

这组数据是DeepSeek论文发布时跑的，当时Claude最新是4.6 Thinking。现在Opus 4.7 Thinking已经发布，V4和当前最强闭源的真实差距大概是6个月到1年的研发时间。谈不上「完全追平」，也算不上「落后一代」。

中文场景：真正的第一梯队

中文写作是V4-Pro少数能对Opus 4.5掰手腕的地方：

意思就是日常中文写作对Gemini是碾压级，复杂指令跟随对Opus 4.5仍然有差距。论文里吐槽Gemini经常「让自己的风格偏好压过用户的明确需求」（擅自加戏），这个描述我读完忍不住笑了一下。

长上下文：128K内稳如狗，1M勉强能用

Benchmark

V4-Pro

Opus 4.6

Gemini 3.1

MRCR 1M

83.5

92.9

76.3

CorpusQA 1M

62.0

71.7

53.8

V4在1M长上下文的检索任务上超过Gemini，但落后Claude Opus 4.6。MRCR 8-needle测试显示128K以内性能稳定在0.9以上，256K后开始掉到0.82，到1024K降至0.59。

128K以内基本没有性能衰减，1M勉强能用。这是CSA+HCA混合架构带来的实际收益。对大多数Agent和代码场景，128K已经足够。

一个特点：为什么V4这么偏科？

读完整份报告，加上这些benchmark结果，有一个很鲜明的模式浮出来：

V4特别擅长做题，但在品味型任务上差一档。

数学竞赛Putnam满分，Codeforces拿到人类选手第23名，LiveCodeBench全场第一。

但创意写作输给Opus 4.5，Agent任务落后GPT-5.4，HLE通用知识被Gemini压制。

我自己的理解是：这和DeepSeek招的人有关。

DeepSeek的招聘以竞赛获奖选手为主。这些人擅长什么？擅长在给定规则下把单点做到极致，擅长解有明确答案的题。模型训练的偏好会受数据团队、训练团队、评估团队的品味影响，这些品味又受团队成员的背景影响。

所以V4在有明确答案的任务上表现顶尖（数学、竞赛编程），在需要综合品味的任务上（创意写作、长链Agent、通用工程编程）就会相对偏弱。

这只是一个观察，谈不上批评。模型的性格映射着团队的性格，这件事很多时候比人们想象的更直接。

DeepSeek还是那个DeepSeek吗？

写到这里不得不问一个问题：V4时代的DeepSeek，和V3时代比，变了吗？

我的回答是：变了，但没变味。

V3时代的DeepSeek是「小团队、极致工程、带来惊喜」。V4时代的DeepSeek打开论文附录，研究工程作者名单已经超过300人，加上商业和合规接近350人。这不再是那个几十人的实验室。

但有几个东西没变。

一个是工程至上。V4的创新重点不在高层架构设计，而在「信号怎么流动」和「梯度怎么更新」这两个底层问题上。mHC解决深度scale的数值稳定性，CSA+HCA解决上下文scale的算力和内存，Muon解决参数scale的训练效率。每一项都是回答「为什么V3做不大」的问题。

我在1月那篇mHC解读里写过一句话：DeepSeek的技术哲学是去质疑那些所有人都觉得没必要改的东西。V4这篇论文把这句话又扎扎实实兑现了一次。残差连接改了，注意力机制改了，优化器也改了。每一处都是行业里默认不动的底座。

另一个是诚实。承认架构「太复杂」（原文：retained many preliminarily validated components which made the architecture relatively complex），承认训练稳定性机制「不理解」（原文：underlying principles remain insufficiently understood），承认sparse还不够极致，承认Agent能力落后闭源。这些话写进一篇技术报告里，放到国内同行里几乎找不到第二家。

还有一条是Open是真Open。R1的86页更新补全了训练账单和数据配方，V4的58页继续补全基础设施的每个缝隙。不是「开源权重就完了」的Open，是一份让别人真的能复现的Open。

DeepSeek在发布V4的时候引用了一句话：不诱于誉，不恐于诽，率道而行，端然正己。

不被赞誉诱惑，不被诽谤吓退，按自己的道走，端正自己。

这句话可能比58页的论文技术细节更能解释这家公司。

最后

回到开头那条线。1月那三篇解读，mHC确实进V4了。Engram和OCR 2呢？

1月Engram那篇我用的比喻是「给大模型发一本字典」：静态知识直接查表，不浪费网络深度现场推理。V4这次没把这本字典装进来，但论文明确把「沿新维度继续稀疏化」列进了未来路线图，参考文献正是Engram那篇论文。

OCR 2的视觉因果流也没进V4，但多模态被明确写进V5的方向（原文：incorporating multimodal capabilities）。

所以下一代DeepSeek大概率会是这样的轮廓：原生多模态（OCR 2这一脉的延伸）、引入某种可扩展的查找式记忆（Engram这一脉的延伸）、进一步降低延迟（为Agent交互做准备）、更长的long-horizon multi-round agentic能力。

V5什么时候发我不好预测。但DeepSeek的节奏已经固定下来：论文先铺路，模型后亮相。V4论文里写了未来方向，剩下的就是时间。

V4显然谈不上对Opus 4.7或GPT-5.5的超越，它是开源阵营的一次基础设施级更新。把百万token上下文、Agent原生支持、成本优势打包成一个可复用的底座。真正的价值不在V4-Pro能不能打赢最强闭源，而在V4-Flash让每一个独立开发者都能在自己的产品里塞进百万上下文。

闭源卷天花板，开源卷地板。

更有意思的故事，会在V5身上。

参考资料：

DeepSeek V4技术报告：见DeepSeek官方GitHub（deepseek-ai/DeepSeek-V4）
DeepSeek R1论文v2（86页）：arxiv.org/abs/2501.12948
我做的73页PPT： https://github.com/alchaincyf/deepseek-v4-deep-dive
我之前写的DeepSeek论文解读系列（mHC、Engram、OCR 2、R1更新）可以在公众号历史文章里搜到

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.