网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4是怎么训练出来的?58页论文深入解读

0
分享至

劝退提醒:

1、这是一篇很长很长的文章,会深入到DeepSeek V4论文中涉及到的各种细节,如果你不感兴趣,只是想知道模型跑分的话,没必要读

2、我也没那么好的技术能力,这是花了2000万Opus4.7 tokens读完内容,并做了73页PPT之后形成的理解

3、我多少对DeepSeek有些滤镜,我很喜欢这个公司的做派和风格,所以表达未必客观中立


如果这种情况下,你还愿意一起往下探的话,那我们开始吧!

在我看来,DeepSeek不是一个冲破天花板的SOTA模型。它真正的价值是把百万上下文、Agent原生能力、能接受的价格这三件事第一次绑在了一起。

而且这次从发布时间和节奏来说也挺有趣的,其实本来按照大家的预期,V4应当在春节前后发的,实际看来也差不多是那会儿完工。他们论文中对标的也是2月那会的Claude Opus 4.6和GPT-5.4。但它实际发布卡到了现在,中间又出了Opus 4.7和GPT-5.5。等它正式亮相,对标对象已经换人了。

DeepSeek自己解释说是为了更好地适配国产芯片。害,行吧,也希望国产芯片好好适配下DeepSeek。

其实今年1月份时,我已经连着写了三篇DeepSeek论文解读:mHC、Engram、OCR 2。当时我的判断是这些技术大概率都会进V4。现在V4论文打开,mHC进来了,其他一些思路也能看出端倪。这篇文章我会顺着这条线讲,让之前读过那几篇的朋友能看到完整的故事线。

再说结论

我们需要重复下开头的核心结论,以这个视角的话,我们会对DeepSeek V4会有个更合理的预期,那就是

这不是一个冲破AGI天花板的世界最佳模型,但属于是一个让普通开发者第一次能够放心地用上100万上下文Agent模型的发布。

这两者的差别非常大。

前者是冲顶峰的叙事,需要在各个benchmark上全面击败Opus 4.7、GPT-5.5、Gemini 3.1 Pro。V4还做不到。

后者是抬地板的叙事。100万token上下文这件事,之前不是没有模型能做到,但要么极贵(Opus、DeepSeek那档),要么效果会显著衰减(很多国产模型128K以上就明显掉分)。V4做的事情是把「100万长上下文」+「Agent多步调用能力」+「能接受的价格」这三件事第一次组合到一起。

对闭源旗舰来说,V4不构成威胁。对一个想在产品里塞入长上下文的独立开发者来说,V4意味着几乎所有的上下文节省工作都可以先不做了(对的,RAG和很多别的AI叙事一样,只要你不学,等着等着你就可以不必学了)

业内有个说法:闭源模型卷能力天花板,开源模型卷地板,地板抬高的速度决定AI应用爆发的规模。V4把这个地板往上抬了抬。

V4-Pro 和 V4-Flash:两个定位不一样的模型

这次DeepSeek发的是两个模型。


V4-Pro的总参数量比V3的671B翻了2.4倍。激活参数从37B涨到49B,只多了三成左右。走的是「稀疏度再提高」的路线。

这里要稍微解释一下MoE模型的工作方式。V4-Pro一共有300多个专家(routed experts)加上1个共享专家。每次处理一个token的时候,它不是把所有专家都调动起来,而是只激活其中6个+共享专家,一共7个专家参与回答。这有点像一个有384位专家的公司,每个决策只召集7个人开会,不搞全员表决。激活的参数量少,推理速度就快,成本也能压下来。

V4-Pro的定位是「开源阵营里能跟闭源旗舰掰手腕的那个」。但DeepSeek自己在论文里也诚实地说了一件事:因为现在高端算力受限,Pro的服务吞吐很有限,所以Pro版本的API价格目前不算便宜,预计下半年才能降下来。

V4-Flash是真正符合DeepSeek一贯风格的那个模型。它的参数规模是V4-Pro的约六分之一,但在很多基础能力上已经反超了V3.2。这意味着架构改进和数据质量的收益,足够抵消参数规模的差距。Flash的价格相比同类快速模型,大概是他们的1/7到1/18。

如果你是独立开发者,我的建议很明确:AI编程、写作、复杂任务、关键决策场景用Opus 4.7这类;批量任务、Agent后台、数据处理用V4-Flash。

架构动了哪些刀

V4没有推倒V3重来。MoE框架沿用的还是DeepSeekMoE,MTP模块没动,训练细节也大多延续V3。真正大改的地方只有三处:

  • 残差连接升级成mHC

  • 注意力拆成CSA+HCA的混合架构

  • 优化器从AdamW换成Muon

这三处改动各自解决一个具体痛点。残差连接在堆深时数值不稳定,限制了把模型做大;传统注意力在百万token长上下文下KV cache爆炸,算力根本扛不住;AdamW在超大规模MoE训练上收敛慢、偏科严重。

V4相当于把V3的三个瓶颈逐一拆掉。

mHC:给残差连接加一道只准收缩不准放大的护栏

mHC我在1月那篇mHC论文解读里已经完整讲过了,这里长话短说。

残差连接是深度学习用了整整十年的基础设计。2015年何恺明的ResNet开始,到现在的每一个大模型都离不开它。它做的事情,用一句话说就是给信号开了一条「快车道」:不管中间那些层学到了什么,原始信号都能直接顺着这条高速公路原封不动传到后面。这就是所谓的「恒等映射」。

这个设计本身没问题。问题出在对它的第一次升级上。2024年底,字节Seed团队发了一篇叫Hyper-Connections(HC)的论文,后来中了ICLR 2025。HC把单通道的残差流扩展成多通道,让模型自己学习最优的连接方式。DeepSeek一开始也是沿着这条路线往下走的,但踩到了HC的一个致命缺陷:训练不稳定。

不稳定到什么程度?DeepSeek在1月那篇mHC论文里给过一个很震撼的数字:在27B模型上,HC的信号放大倍数峰值达到3000倍。也就是说,信号在网络里传着传着,被放大了3000倍,梯度也随之被放大3000倍。训练到某一步突然崩掉是家常便饭。

mHC解决这个问题的思路,我觉得最形象的说法还是1月文章里那句:给残差连接加了一道「只准收缩不准放大」的数学护栏

用一个画面讲清楚。信号在网络里一层层往下传,可以想象成把一杯水倒进下一个杯子。HC的做法是把一根水管变成四根,每根流量让模型自己学。灵活是灵活了,但没人管总量。倒着倒着水越倒越多,到第60层的时候已经是原来的3000倍,杯子直接爆了。

mHC的做法是强制每一层倒水都守恒。不管四根水管怎么分配、怎么混合,进多少水就出多少水,一滴不多一滴不少。

这个约束的数学工具叫「双随机矩阵」,名字吓人,本质就是一张分配表:每一行加起来等于1,每一列加起来也等于1。这两个条件加起来,天然保证了水不会凭空变多。更舒服的是,两张双随机矩阵乘在一起还是双随机矩阵,所以不管你堆多少层,守恒这件事都不会失效。

代价是模型不能自由学这张表,每一层都要用一个叫Sinkhorn-Knopp的算法迭代20次,把学出来的东西压回守恒的形状。相比训练崩掉的损失,这个代价不算什么。

mHC带来的直接结果是:V4能把模型从V3的671B推到1.6T,参数量2.4倍增长,训练稳定性反而比V3更好。


这是理解V4能「做大」的第一把钥匙。

CSA + HCA:读一本800页的书,先翻目录再精读

这是整篇论文我觉得工程含量最高的地方,也是V4百万上下文能落地的核心。

先说清楚一件事:为什么100万上下文这么难做?


标准的注意力机制,每个新来的token都要和前面所有token算一次内积。如果把4K上下文换成100万上下文,需要算的内积数量是4000倍,显存占用也是4000倍。粗略估算下来,100万上下文的单次推理成本比4K高约6万倍。这堵「算力墙」和「显存墙」加起来,是大多数模型在128K-200K就停住的原因。

V4的解法是把注意力机制拆成两种,在Transformer不同的层里交替使用。

CSA(Compressed Sparse Attention)走精细路线。它把每m个token压缩成1个块,然后用一个叫Lightning Indexer的小模块算每个query和每个压缩块的相关性分数,只挑分数最高的top-k个块去做真正的注意力计算。

HCA(Heavily Compressed Attention)走粗略路线。它的压缩率m'远比m大(通常是几十倍),但不做稀疏筛选,query会dense地把所有压缩块都扫一遍。牺牲细粒度,换极致的KV cache压缩。

我觉得这两种注意力最好的比喻就是读一本800页的书

你不会逐字读完。大概率是这样:先翻目录,定位到有用的那几章;翻到那一章后扫一下小标题,定位到第几页;最后才精读那几页。这是一个先粗后细的过程。

V4把这个动作拆成了两种独立的机制,交替安排在不同的层里:

  • CSA做的是「扫小标题定位」:先把每64个token揉成一块,给每块打分,挑出最相关的几块去精读

  • HCA做的是「翻目录看大意」:直接把1024个token压成一块,一本800页的书可能只剩几十块大摘要,每个新来的token都把这几十块全扫一遍

两者加起来,V4在100万上下文下的单次推理成本,只有V3.2的约1/4。KV cache占用只有传统BF16 GQA8 baseline的约2%。

把50份压成1份,这是百万上下文真正能跑起来的数学原因。

论文里还有一堆工程细节,比如两种注意力都用Shared KV MQA进一步省cache,都加了sliding window分支保证局部细节不丢,都用了attention sink让query可以「弃权」。这些工程活不好解释,但每一个都在扣效率。

这是理解V4能「读长」的第二把钥匙。

Muon:别每个旋钮单独调,整组一起掰

Muon是V4用来替代AdamW的优化器。改动的技术深度很足,但可以用画面感拆开说。

先说优化器是干嘛的。模型训练就一句话:猜一个答案,对照正确答案,根据错的方向调整自己。优化器决定的就是「具体怎么调」。

AdamW是过去十年行业默认的优化器。它的逻辑是:模型内部有几十亿个旋钮要调,每个旋钮单独看它过去抖得厉害不厉害,抖得厉害就调慢一点,抖得少就调猛一点。听起来挺合理。

问题是这些旋钮不独立。它们是同一台机器上的几十亿个零件,彼此联动。AdamW单独看每个旋钮的历史做判断,结果就是模型在参数空间里走出来的轨迹是个极度扁的椭圆:少数几个「热门方向」步子迈得特别大,推到病态的程度;其他方向几乎没动过,等于没学。

说得更直白点,AdamW训出来的模型会偏科


Muon反过来想。它不看单个旋钮,而是看这一整组旋钮合起来在往哪个方向走,然后把这个方向的更新强行「拉平」:原本迈得特别大的方向压一压,几乎没动的方向拉一拉,让每个方向都走一样远。数学上这个操作叫「正交化」,画面感上就是把原本歪扁的椭圆硬掰成一个正圆。

好处是什么?原本被AdamW淹没的冷门方向,现在能和热门方向拿一样的步长。模型探索范围更广,收敛更稳。

Muon天生有个成本问题:每一步都要把椭圆掰成正圆,直接算要做矩阵分解,太贵。V4用了一个近似办法(Newton-Schulz迭代),10步搞定一次掰正,前8步用激进系数快速逼近,后2步切换温和系数做精修。工程上刚好不贵。

一个细节:V4没把所有参数都交给Muon。embedding、prediction head、RMSNorm这些本来就不是矩阵、没有「方向」概念的参数,还是AdamW管。Muon和AdamW各管一摊。

这是理解V4能「训深」的第三把钥匙。

1.6T怎么训稳的:两个他们自己也不懂的trick

把模型从671B推到1.6T,光有mHC还不够。训练1.6T的MoE时,V4团队遇到了loss spike(训练损失突然飙升,前几轮学的东西都被噪声污染),简单的回滚保存点也救不回来,刚回滚完没多久又崩。

他们最终用了两个办法把训练救回来。

一个叫Anticipatory Routing(预判式路由)。MoE模型里有个「路由器」负责每一步挑哪几个专家上场,这个路由器本身也是学出来的。训练崩溃的恶性循环是这样:某一步某个专家输出了一个异常大的数,这个异常让路由器误以为「这个专家真强」,下一步派给它更多任务,它输出更离谱的数,路由器越挑越偏,训练崩了。

解法特别巧:让路由器用「昨天的脑子」做「今天的决定」。主干网络的更新和路由器解耦,主干用当前参数算,但路由器挑专家时查的是前几步的历史参数。今天网络再怎么抽风,路由器用的是没被污染的旧脑子,恶性循环就断了。

另一个叫SwiGLU Clamping。SwiGLU是模型里的激活函数,可以理解为每个神经元的「水龙头」。正常情况水龙头开多大都行,但在1.6T这个规模上,某些神经元会突然爆出极大的数值,把整个训练带崩。DeepSeek的做法简单粗暴:给SwiGLU内部的几个关键数值强行加一个上下限(-10到10之间),哪怕某个神经元想输出一万,也只能给你10。

这两个trick为什么有效?DeepSeek自己在论文里说,他们也不完全清楚。原话是「the underlying principles of these mechanisms remain insufficiently understood」。

他们只知道:用了,有效,就这么用。至于为什么,希望社区一起探索。

我觉得这个细节值得单独拎出来讲。

过去我们看到的很多技术报告,总是在事后给方法找一套漂亮的理论解释,好像研究者从一开始就想得很清楚。但实际工程里,很多时候是先做出来再理解。DeepSeek不藏这个,白纸黑字写进论文里。

这种坦诚在国内团队里并不多见。今年1月我写R1论文更新那篇时说过,DeepSeek的「Open」不是做到行业平均水平就够了,而是包括那些失败的尝试、没搞懂的trick、踩过的坑都一并开出来。

V4这篇报告延续了这个风格。

训练数据:32T tokens,反AI生成、加Agent、加多语言

V4的预训练数据比V3更大(33T vs V3的14.8T),也更讲究。几个关键动作:

反模型坍缩。互联网语料里现在充斥着大量AI生成的文本。如果不做过滤,训练出来的模型会出现「模型坍缩」(model collapse):每一代都在上一代的AI输出上训练,能力会越来越差。DeepSeek专门做了一套过滤,把批量自动生成和套模板的内容拦掉。

中期训练引入Agent数据。工具调用轨迹、多步推理、搜索片段这些,不能靠后训练硬掰,必须在预训练中期就喂进去。这是V4-Flash的Agent能力跃升的关键原料。

多语言扩容。扩充了除中英外的长尾语言,覆盖不同文化的知识。所以你用V4做翻译、或者查一些非英文语言的长尾知识,效果会比V3好不少。

精选长文档。科学论文、技术报告这类「学术价值独特」的材料被重点收录。

训练数据规模上,Pro版本是33T tokens,Flash版本是32T tokens。分词沿用V3的128K词表。

序列长度是分阶段扩展的:从4K起步,逐步扩到16K、64K、1M。稀疏注意力也是分阶段引入:前1T tokens先用dense attention热身,到64K序列长度时切到sparse attention。这种渐进式训练在超长上下文模型里已经是事实标准,但V4的阶段切换时机设计比较精细。

后训练:Specialist + OPD,一个被低估的范式变化

如果说架构改动是V4最显眼的变化,那后训练范式的变化其实是这篇报告最深刻的变化。V4在后训练章节的第一句话就很有趣:

the mixed Reinforcement Learning (RL) stage was entirely replaced by On-Policy Distillation (OPD).

翻译过来就是:混合RL阶段被彻底替换成在策略蒸馏。

这句话我觉得像是范式级别的转变了。

为什么要替换

传统后训练是「SFT+RLHF混炼」的路子:一个大杂烩数据集,SFT打底,再用一个reward model做RL。问题是什么?

数学、代码、Agent、对话这些能力在RL阶段会互相打架。你调数学的reward权重,代码能力可能就掉了;你加Agent数据,对话又变笨。多任务联合优化的「负迁移」问题,几乎每个做过后训练的团队都踩过坑。

DeepSeek的解法是把「联合优化」拆成「分治+合并」:

Stage 1 Specialist训练:每个领域(推理、数学、代码、Agent、通用对话)单独训练一个专家模型。先SFT,再用GRPO做RL。每个专家只管自己那块,reward signal清晰,不用跟其他领域折中。

Stage 2 On-Policy Distillation:把十多个专家模型当老师,通过反向KL loss蒸馏出一个统一的学生模型。

这个拆分的妙处在于:RL只在专家阶段做,最终的学生模型不做RL,只做蒸馏。RL的训练不稳定性被隔离在专家模型内部,学生模型通过更稳定的蒸馏loss拿到所有专家的能力。

反向KL是关键

OPD的技术细节里,有一个点特别值得讲:为什么用反向KL而不是正向KL?

正向KL是让学生去cover老师的所有模式,结果往往学成四不像。反向KL是让学生集中在老师分布的高概率区域,学生会自动「选老师」:数学任务时对齐数学专家,代码任务时对齐代码专家。

这个「自动路由」的特性,是多老师蒸馏能跑通的关键。

为什么这个范式重要

讲到这里可能有朋友要问:这个东西对独立开发者有什么意义?

我的判断是,这可能是比MoE更深刻的范式变化。

MoE是推理时混合(runtime mixture),OPD蒸馏是训练时混合(training time mixture)。后者的组合空间大得多。

这个范式天然适合几类场景:

  • 小团队:没钱一开始就训大模型,但可以训多个小specialist,最后蒸馏融合

  • 垂直应用:法律/医疗/代码各训一个专家,最后合并

  • 持续学习:要增加新能力时,训一个新专家加入蒸馏池就行,不破坏老模型

只要你能训出专家,就能通过OPD合进来。未来想加新能力(比如「写毛笔字」「解几何题」),路径很清晰:训专家→加入蒸馏池。这比RLHF要改reward、要重跑全流程友好得多。

这个范式会不会成为新的行业标准,目前还不好说。但V4已经用了十多个专家模型做OPD,证明在万亿参数级别它是可行的。


评测结果:强在哪,弱在哪

评测是V4论文里最重要的部分之一,也是最容易被误读的部分。我直接把我的判断列出来。

数学推理:反超闭源旗舰

V4-Pro在几个数学类benchmark上拿到了开源阵营前所未有的高分:

Benchmark

V4-Pro-Max

对比

Putnam-2025(形式化证明)

120/120 满分

超过Axiom和Seed-Prover

Apex Shortlist

90.2

全场第一,超过Gemini 3.1 Pro

IMOAnswerBench

89.8

接近GPT-5.4的91.4

HMMT 2026 Feb

95.2

仅次于GPT-5.4

Codeforces的竞赛评分V4-Pro能达到3206分,对应人类选手第23名。这是非常离谱的水平。

编程:LiveCodeBench和Codeforces双第一

V4-Pro在LiveCodeBench拿到93.5分,Codeforces Rating 3206。DeepSeek论文里明确写了,这是第一次开源模型在这两项任务上追平闭源。


但注意一个细节:SWE系列(真实工程代码任务)就没那么亮眼了。SWE Verified 80.6分接近Opus 4.6的80.8但没超过,SWE Multilingual也略输。

这就对应上了DeepSeek论文里自己的总结:V4模型非常擅长做题,但品味上还差一些火候。竞赛类任务有明确答案,RL能反复打磨;工程类任务要综合考虑代码风格、架构、可维护性,这些品味层面的东西现在的RL训练还吃不透。

Agent:全方位落后闭源

这是V4最弱的一块。

Benchmark

V4-Pro-Max

最强

Terminal Bench 2.0

67.9

GPT-5.4: 75.1

BrowseComp

83.4

Gemini 3.1: 85.9

HLE w/ tools

48.2

Opus 4.6: 53.1(甚至输给K2.6)

GDPval-AA (Elo)

1554

GPT-5.4: 1674

Terminal Bench 2.0落后GPT-5.4整整7分,HLE w/ tools落后Opus 4.6整整5分。DeepSeek论文里非常诚实地写了:「所有开源模型仍落后闭源对手」。

唯一的亮点是MCPAtlas Public(73.6),仅次于Opus的73.8。说明V4在通用工具调用和MCP服务上泛化能力不错,不是只在内部框架里打鸡血。

真实编程任务:接近Opus 4.5,差Opus 4.6 Thinking 13分

DeepSeek自己拿200多个真实的内部R&D编程任务做了测试,来自50多位工程师日常工作中提的真实需求,覆盖PyTorch、CUDA、Rust、C++:

模型

R&D编程通过率

Claude Haiku 4.5

13%

Claude Sonnet 4.5

47%

DeepSeek V4-Pro-Max 67%

Claude Opus 4.5

70%

Claude Opus 4.5 Thinking

73%

Claude Opus 4.6 Thinking

80%

V4-Pro的67%已经超过Sonnet 4.5(47%),接近Opus 4.5(70%),但距离Opus 4.6 Thinking(80%)还差13个百分点。

这组数据是DeepSeek论文发布时跑的,当时Claude最新是4.6 Thinking。现在Opus 4.7 Thinking已经发布,V4和当前最强闭源的真实差距大概是6个月到1年的研发时间。谈不上「完全追平」,也算不上「落后一代」。

中文场景:真正的第一梯队

中文写作是V4-Pro少数能对Opus 4.5掰手腕的地方:


意思就是日常中文写作对Gemini是碾压级,复杂指令跟随对Opus 4.5仍然有差距。论文里吐槽Gemini经常「让自己的风格偏好压过用户的明确需求」(擅自加戏),这个描述我读完忍不住笑了一下。

长上下文:128K内稳如狗,1M勉强能用

Benchmark

V4-Pro

Opus 4.6

Gemini 3.1

MRCR 1M

83.5

92.9

76.3

CorpusQA 1M

62.0

71.7

53.8

V4在1M长上下文的检索任务上超过Gemini,但落后Claude Opus 4.6。MRCR 8-needle测试显示128K以内性能稳定在0.9以上,256K后开始掉到0.82,到1024K降至0.59。

128K以内基本没有性能衰减,1M勉强能用。这是CSA+HCA混合架构带来的实际收益。对大多数Agent和代码场景,128K已经足够。

一个特点:为什么V4这么偏科?

读完整份报告,加上这些benchmark结果,有一个很鲜明的模式浮出来:

V4特别擅长做题,但在品味型任务上差一档

数学竞赛Putnam满分,Codeforces拿到人类选手第23名,LiveCodeBench全场第一。

但创意写作输给Opus 4.5,Agent任务落后GPT-5.4,HLE通用知识被Gemini压制。

我自己的理解是:这和DeepSeek招的人有关。

DeepSeek的招聘以竞赛获奖选手为主。这些人擅长什么?擅长在给定规则下把单点做到极致,擅长解有明确答案的题。模型训练的偏好会受数据团队、训练团队、评估团队的品味影响,这些品味又受团队成员的背景影响。

所以V4在有明确答案的任务上表现顶尖(数学、竞赛编程),在需要综合品味的任务上(创意写作、长链Agent、通用工程编程)就会相对偏弱。

这只是一个观察,谈不上批评。模型的性格映射着团队的性格,这件事很多时候比人们想象的更直接。

DeepSeek还是那个DeepSeek吗?

写到这里不得不问一个问题:V4时代的DeepSeek,和V3时代比,变了吗?

我的回答是:变了,但没变味。

V3时代的DeepSeek是「小团队、极致工程、带来惊喜」。V4时代的DeepSeek打开论文附录,研究工程作者名单已经超过300人,加上商业和合规接近350人。这不再是那个几十人的实验室。

但有几个东西没变。

一个是工程至上。V4的创新重点不在高层架构设计,而在「信号怎么流动」和「梯度怎么更新」这两个底层问题上。mHC解决深度scale的数值稳定性,CSA+HCA解决上下文scale的算力和内存,Muon解决参数scale的训练效率。每一项都是回答「为什么V3做不大」的问题。

我在1月那篇mHC解读里写过一句话:DeepSeek的技术哲学是去质疑那些所有人都觉得没必要改的东西。V4这篇论文把这句话又扎扎实实兑现了一次。残差连接改了,注意力机制改了,优化器也改了。每一处都是行业里默认不动的底座。

另一个是诚实。承认架构「太复杂」(原文:retained many preliminarily validated components which made the architecture relatively complex),承认训练稳定性机制「不理解」(原文:underlying principles remain insufficiently understood),承认sparse还不够极致,承认Agent能力落后闭源。这些话写进一篇技术报告里,放到国内同行里几乎找不到第二家。

还有一条是Open是真Open。R1的86页更新补全了训练账单和数据配方,V4的58页继续补全基础设施的每个缝隙。不是「开源权重就完了」的Open,是一份让别人真的能复现的Open。

DeepSeek在发布V4的时候引用了一句话:不诱于誉,不恐于诽,率道而行,端然正己。


不被赞誉诱惑,不被诽谤吓退,按自己的道走,端正自己。

这句话可能比58页的论文技术细节更能解释这家公司。

最后

回到开头那条线。1月那三篇解读,mHC确实进V4了。Engram和OCR 2呢?

1月Engram那篇我用的比喻是「给大模型发一本字典」:静态知识直接查表,不浪费网络深度现场推理。V4这次没把这本字典装进来,但论文明确把「沿新维度继续稀疏化」列进了未来路线图,参考文献正是Engram那篇论文。

OCR 2的视觉因果流也没进V4,但多模态被明确写进V5的方向(原文:incorporating multimodal capabilities)。

所以下一代DeepSeek大概率会是这样的轮廓:原生多模态(OCR 2这一脉的延伸)、引入某种可扩展的查找式记忆(Engram这一脉的延伸)、进一步降低延迟(为Agent交互做准备)、更长的long-horizon multi-round agentic能力。

V5什么时候发我不好预测。但DeepSeek的节奏已经固定下来:论文先铺路,模型后亮相。V4论文里写了未来方向,剩下的就是时间。

V4显然谈不上对Opus 4.7或GPT-5.5的超越,它是开源阵营的一次基础设施级更新。把百万token上下文、Agent原生支持、成本优势打包成一个可复用的底座。真正的价值不在V4-Pro能不能打赢最强闭源,而在V4-Flash让每一个独立开发者都能在自己的产品里塞进百万上下文

闭源卷天花板,开源卷地板。

更有意思的故事,会在V5身上。

参考资料:

  • DeepSeek V4技术报告:见DeepSeek官方GitHub(deepseek-ai/DeepSeek-V4)

  • DeepSeek R1论文v2(86页):arxiv.org/abs/2501.12948

  • 我做的73页PPT: https://github.com/alchaincyf/deepseek-v4-deep-dive

  • 我之前写的DeepSeek论文解读系列(mHC、Engram、OCR 2、R1更新)可以在公众号历史文章里搜到

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
笑疯了!西安给失业人员免费培训,评论区太扎心,一点面子都不留

笑疯了!西安给失业人员免费培训,评论区太扎心,一点面子都不留

谭谈社会
2026-04-25 22:19:12
斯凯奇,在三亚交上「专业」答卷 !

斯凯奇,在三亚交上「专业」答卷 !

跑步侠
2026-02-05 16:46:15
忘了两伊战争?如今伊朗拿霍尔木兹海峡赌国运,纯属记吃不记打!

忘了两伊战争?如今伊朗拿霍尔木兹海峡赌国运,纯属记吃不记打!

寰球经纬所
2026-04-25 16:00:55
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-04-25 14:07:02
战与和的拉扯:美国无限反转在消磨什么?日本扩军狂飙想干什么?

战与和的拉扯:美国无限反转在消磨什么?日本扩军狂飙想干什么?

上观新闻
2026-04-25 18:49:05
乌军曝出丑闻,西尔斯基怒不可遏:所有指挥官撤职查办!

乌军曝出丑闻,西尔斯基怒不可遏:所有指挥官撤职查办!

史政先锋
2026-04-25 20:38:13
张军失联前的荒诞细节:老婆去要人

张军失联前的荒诞细节:老婆去要人

鲁八两
2026-04-25 14:43:09
台湾生病了,郑丽文支持率4%。最新民调数据给出的结果相当残酷

台湾生病了,郑丽文支持率4%。最新民调数据给出的结果相当残酷

安安说
2026-04-25 12:00:19
0-3到4-3!凯恩替补制胜进球,拜仁逆转美因茨,三天后死磕大巴黎

0-3到4-3!凯恩替补制胜进球,拜仁逆转美因茨,三天后死磕大巴黎

钉钉陌上花开
2026-04-25 23:28:56
史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

柏年说政经
2026-04-25 10:00:08
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
敌人不是中国,70人要扒总统皮,特朗普连发4文,贺锦丽杀回政坛

敌人不是中国,70人要扒总统皮,特朗普连发4文,贺锦丽杀回政坛

生活魔术专家
2026-04-25 15:58:04
火锅店野生菌“见手青”煮12分钟,顾客食用后中毒维权无果,消委科普称需煮20分钟;广州天河区市监局:没充分证据不予立案

火锅店野生菌“见手青”煮12分钟,顾客食用后中毒维权无果,消委科普称需煮20分钟;广州天河区市监局:没充分证据不予立案

大风新闻
2026-04-25 20:38:04
一眼记住的大众电车,ID. AURA T6每一笔都有理由

一眼记住的大众电车,ID. AURA T6每一笔都有理由

车云网
2026-04-25 15:14:12
英超保级反转!热刺1-0新帅首胜,西汉姆2-1绝杀,降级热门2选1

英超保级反转!热刺1-0新帅首胜,西汉姆2-1绝杀,降级热门2选1

体育知多少
2026-04-26 00:09:25
广场舞噪音乱入!深圳一演唱会现场遭观众吐槽,官方回应

广场舞噪音乱入!深圳一演唱会现场遭观众吐槽,官方回应

南方都市报
2026-04-25 15:33:03
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

陈奕迅女儿陈康堤承认与香港网球一哥黄泽林恋爱:是家人介绍的

懂球帝
2026-04-25 16:34:10
大规模无人机侵扰美核军事基地事件持续7天,美国防部前高官:没一架被击落,没人被抓

大规模无人机侵扰美核军事基地事件持续7天,美国防部前高官:没一架被击落,没人被抓

红星新闻
2026-04-24 21:09:18
天助曼联:0-1,英超第4遭英超第2掀翻,维拉无缘反超曼联升至第3

天助曼联:0-1,英超第4遭英超第2掀翻,维拉无缘反超曼联升至第3

侧身凌空斩
2026-04-25 21:21:39
2026-04-26 02:03:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
192文章数 112关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

亲子
家居
房产
旅游
军事航空

亲子要闻

发生率仅十万分之一!这种稀有血型跨省紧急调配,只为守护母婴安全

家居要闻

自然肌理 温润美学

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

旅游要闻

美猴王VS水蜜桃,连云港、无锡文旅“双向奔赴”

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版