网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4登顶了!梁文锋把四大技术秘方公开

0
分享至


智东西
作者 杨京丽
编辑 李水青

智东西4月24日报道,今天,DeepSeek-V4刚开源就迅速登顶了Hugging Face开源模型榜,相关技术报告也大方披露,覆盖华为昇腾与英伟达芯片适配、模型架构升级、预训练和后训练环节优化等丰富的技术细节,非常值得仔细品读。


DeepSeek-V4最显著的提升,除了在推理、知识、代码能力上全线抬升,整体表现比肩GPT-5.4、Claude Opus 4.6等顶级闭源模型;还在于该模型首次将“百万上下文”作为默认能力开放,在此设置下单token推理FLOPs相比DeepSeek-V3.2暴降73%,KV cache仅为其10%,大幅降低使用成本。

基础设施方面,DeepSeek-V4从训练到推理的全链路,已经完整适配了华为昇腾NPU,其自研的细粒度专家并行方案“MegaMoE”,能够在NVIDIA GPU和华为昇腾NPU上实现1.50-1.73倍的加速

DeepSeek-V4的训练过程相比前代模型有一些差异化。预训练中,DeepSeek-V4引入了“样本级注意力掩码”机制,语料总规模超过32万亿tokens,涵盖数学内容、代码、网页文本、长文档等多种高质量类别。后训练中,DeepSeek-V4则将原先的混合强化学习阶段替换为“基于策略的蒸馏”,确保训练更为可控。


开源地址:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

报告地址:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一、基础设施再创新,全链路高效适配华为昇腾

DeepSeek-V4在基础设施方面提升较为明显,采用专家混合(MoE)技术,可通过专家并行化(EP)实现加速

然而,EP需要复杂的节点间通信机制,并对互连带宽和延迟提出较高要求。为缓解EP中的通信瓶颈,并在降低互连带宽需求的同时,提升端到端性能,DeepSeek提出了一种细粒度EP方案“MegaMoE”:将通信与计算功能整合为单一流水线内,实现通信与计算的重叠执行。

DeepSeek-V4在英伟达GPU和华为昇腾NPU平台上验证了细粒度专家并行(EP)方案。与性能较强的非融合基线相比,该方案在通用推理任务中实现了约1.50-1.73倍的加速,在延迟敏感的场景中最高可达1.96倍。相关CUDA实现已开源,名为MegaMoE2,作为DeepGEMM的一个组件提供。


将专家调度(Dispatch)与Linear-1重叠,将Linear-2与Combine重叠。EP方案通过将专家拆分并按波次调,实现了更细粒度的重叠。

在实际应用中,复杂的模型架构原本会生成数百个细粒度的Torch ATen运算符。为此,DeepSeek采用TileLang开发了一组融合内核,用以替代其中绝大多数运算符,把碎片化的小kernel融成大块,调用开销从百微秒压到1微秒以内,还引入Z3形式化求解器做优化验证。做到比特级可复现,同一token不管在batch哪里都得到同样结果,同一模型每次运行完全一致,这对大模型调试是保命设计。

DeepSeek将FP4(MXFP4)量化应用于两个关键部分:第一是MoE专家权重,这部分是GPU显存占用的主要来源之一;第二是CSA中索引器的Query-Key(QK)路径,在该路径中,QK激活值的缓存、加载以及乘法计算全部在FP4精度下完成,从而在长上下文场景中加速注意力分数的计算。

训练框架建立在为DeepSeek-V3开发的可扩展且高效的基础设施之上。在训练DeepSeek-V4时,DeepSeek继承了这一基础,同时引入了多项关键创新,适配其新的架构组件——包括Muon优化器、mHC,以及混合注意力机制,并在此过程中保持高效的训练效率与稳定性。


二、架构升级,突破长文本计算效率瓶颈

推理模型兴起后,业内建立了一种新的“测试时扩展”范式,显著推动了大型语言模型的性能提升。然而,这种扩展范式从根本上受限于传统注意力机制,难以处理超长上下文和复杂推理过程。

同时,从复杂智能体工作流到大规模跨文档分析,长时序任务的出现,也使得高效支持超长上下文成为未来发展的关键需求。尽管近年来一些开源工作(如DeepSeek、MiniMax、Qwen等)已经推动了模型能力的整体提升,但在处理超长序列方面的核心架构低效问题仍然存在。

DeepSeek-V4为解决这个瓶颈,它通过一系列架构创新,让模型在处理超长上下文时的计算效率大幅提升,从而真正把上下文长度推进到“百万token”这个量级。

总体而言,DeepSeek-V4系列沿用了Transformer架构和多Token预测模块,并在DeepSeek-V3基础上引入了项关键改进:

(1)采用混合注意力架构,将压缩稀疏注意力(CSA)与高压缩注意力(HCA)结合,以提升长上下文处理效率;

(2)引入流形约束超连接(mHC),增强传统残差连接;

(3)使用Muon优化器,实现更快的收敛速度和更高的训练稳定性。


具体做法上,DeepSeek-V4保留了MoE结构和多token预测策略,重点改造了注意力机制:提出一种“混合注意力”,即把两种不同的压缩方式结合起来,一种是先压缩再做稀疏注意力,另一种是更激进地压缩但仍保持稠密计算,这样在保证信息利用的同时大幅减少计算和存储开销。此外,它还改进了残差连接,增强模型表达能力,并引入新的优化器Muon,让训练更快更稳定。

除了模型结构本身,DeepSeek对整个训练和推理系统做了大量工程优化,比如把MoE的计算、通信和内存访问融合在一起执行,用专门的语言优化内核,实现可复现的计算过程,以及通过低精度(FP4)来减少资源消耗。在推理阶段,还设计了更复杂的KV cache存储方式,甚至可以部分放到磁盘上,从而支持极长上下文而不爆内存。

三、预训练:基础模型提升明显,Flash模型就已超V3.2

预训练过程主要基于DeepSeek-V3的数据,同时为构建一个更多样化、高质量且有效上下文更长的训练语料库,DeepSeek持续优化数据构建流程。与DeepSeek-V3不同的是,V4在预训练过程中引入了“样本级注意力掩码”(sample-level attention masking)机制。

对于来自网页的数据,DeepSeek-V4采用过滤策略,去除批量自动生成和模板化内容,从而降低模型崩溃的风险。数学和编程语料仍然是训练数据的核心组成部分,同时DeepSeek在中期训练阶段引入了智能体数据,进一步提升DeepSeek-V4系列的代码能力。

在多语言数据方面,DeepSeek-V4构建了更大规模的语料库,从而增强模型对不同文化中“长尾知识”的理解能力。此外,DeepSeek-V4特别强调长文档数据的构建,优先收集科学论文、技术报告等材料。

综合上述各类数据,预训练语料总规模超过32万亿tokens,涵盖数学内容、代码、网页文本、长文档等多种高质量类别。

对于基础模型的评估,DeepSeek-V4覆盖四个关键维度的基准测试,包括世界知识、语言理解与推理、代码与数学,以及长上下文处理。

DeepSeek-V3.2、DeepSeek-V4-Flash和DeepSeek-V4-Pro的基础模型在统一的内部框架下进行了评测,获得以下结果。


尽管DeepSeek-V4-Flash-Base的激活参数量和总参数量都明显更小,但它在大量基准测试中超过了DeepSeek-V3.2-Base,该优势在世界知识任务和长上下文场景中尤其明显。结果表明,DeepSeek-V4-Flash-Base在更紧凑的参数预算下,也能取得更强性能,在大多数评测中有效超过规模更大的DeepSeek-V3.2-Base。

此外,DeepSeek-V4-Pro-Base能力跃升更为明显,几乎全面领先DeepSeek-V3.2-Base和DeepSeek-V4-Flash-Base,在基准测试上刷新了DeepSeek基础模型的性能上限。它在知识密集型评测和长上下文理解能力取得了显著提升。在大多数推理和代码基准上,DeepSeek-V4-Pro-Base也超过了前两个模型。可以说,DeepSeek-V4-Pro-Base在知识、推理、代码和长上下文能力等多个方面全面超越了前代模型。

四、后训练:基于策略蒸馏,跨轮次保留推理历史

在完成预训练之后,DeepSeek还进行了后训练,最终得到DeepSeek-V4系列模型。虽然整体训练流程在很大程度上沿用了DeepSeek-V3.2的方案,但在方法上做出了一项关键替换:原先的混合强化学习(RL)阶段被完全替换为“基于策略的蒸馏”(On-Policy Distillation,OPD)。

具体做法是,先对每个目标领域各自训练一个独立的专家模型。每位专家都经历相同的流程:先用高质量领域数据做监督微调打底,再用GRPO算法做领域强化学习,这一步会得到十多位各有所长的“偏科高手”。

真正的合并动作发生在第二阶段。DeepSeek-V3.2的做法是把各类数据混在一起做RL,容易互相影响,而V4则换成让统一的学生模型自己采样答题,过程中由这十多位专家老师在完整词表的logit层面打分对齐,用reverse KL损失把学生拉向老师。这种方式保证模型在每个领域的专长都能被完整保留。另外一个关键改动是DeepSeek-V4坚持做全词表蒸馏,进而梯度更稳,训练曲线更可控,但工程难度更高。

依托DeepSeek-V4系列的一百万 token上下文窗口,DeepSeek进一步优化机制,以最大化智能体环境中交错思考的效果。


工具调用场景中,所有推理内容都会在整个对话过程中被完整保留。不同于DeepSeek-V3.2会在每一轮新用户输入到来时丢弃思考轨迹,DeepSeek-V4系列会跨越所有轮次保留完整的推理历史,让模型能够在长周期智能体任务中维持连贯、持续累积的思考链条。

一般对话场景中,DeepSeek-V4仍然保留原有策略:当新的用户消息到来时,会丢弃上一轮的推理内容,从而保持上下文简洁。

与DeepSeek-V3.2一样,那些通过用户消息来模拟工具交互的智能体框架(例如 Terminus)可能不会触发工具调用上下文路径,因此也可能无法受益于增强后的推理持久化机制。对于这类架构,DeepSeek仍然建议使用非思考模型

五、知识、推理、代码三线抬升,开源模型逼近闭源上限

评测结果上看,DeepSeek-V4-Pro-Max相比其他开源模型也略有领先,部分能力逼近闭源模型。

知识能力和推理能力上,DeepSeek-V4-Pro-Max相比其他开源模型略有领先,但仍逊于闭源模型Gemini 3.1-Pro。推理能力上,DeepSeek-V4-Pro-Max优于GPT-5.2和Gemini-3.0-Pro,落后于GPT-5.4和Gemini-3.1-Pro;DeepSeek-V4-Flash-Max与GPT-5.2和Gemini-3.0-Pro能力近似,在复杂推理任务中展现出很高的性价比。

Agent能力方面,DeepSeek-V4-Pro-Max与Kimi-K2.6和GLM-5.1等领先开源模型表现相当,但略逊于最前沿的闭源模型。长上下文能力方面,DeepSeek-V4-Pro-Max在合成任务和真实应用场景中均表现强劲,在学术基准测试中甚至超过了Gemini-3.1-Pro。


在DeepSeek-V4-Pro与DeepSeek-V4-Flash的对比中,由于参数规模较小,DeepSeek-V4-Flash-Max在知识类评测中的表现略低。但在给予更多推理token时,在推理任务中的表现可以接近DeepSeek-V4-Pro-Max。在智能体评测中DeepSeek-V4-Flash-Max在部分基准上可以达到与DeepSeek-V4-Pro-Max相当的水平,但在更复杂、高难度任务中仍略逊一筹。

结语:高效支持百万级token上下文,后续需简化架构

DeepSeek-V4系列预览版突破了超长上下文处理中的效率瓶颈,其通过融合CSA与HCA的混合注意力架构,并结合系统级基础设施优化,使模型能够更高效地支持百万token级上下文,为测试时扩展、长时序任务和在线学习等方向提供了基础。

从评测结果看,DeepSeek-V4-Pro-Max在开源模型中表现突出,在知识、推理和智能体任务上均取得较强结果,部分能力接近前沿闭源模型。DeepSeek-V4-Flash-Max则在较低成本下实现了较强推理能力,体现出较高性价比。

不过,DeepSeek-V4的架构也较为复杂,部分稳定性方法如Anticipatory Routing和SwiGLU Clamping的机理仍有待进一步理解。后续工作预计将集中在简化架构、提升训练稳定性、探索更多稀疏化方向、降低长上下文推理延迟、增强多轮智能体与多模态能力,以及持续改进数据构建与合成策略等方面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月24日俄乌最新:俄军不战而降,亚速海岸即将被切断?

4月24日俄乌最新:俄军不战而降,亚速海岸即将被切断?

西楼饮月
2026-04-24 19:21:02
震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

震惊!洛阳某职业学院高调官宣10名毕业生入职肯德基,引发争议

火山詩话
2026-04-24 16:29:11
演员脱掉和服才向观众鞠躬致谢,本人回应:撕掉这层皮,做回真真正正中国人

演员脱掉和服才向观众鞠躬致谢,本人回应:撕掉这层皮,做回真真正正中国人

台州交通广播
2026-04-23 22:50:01
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
大龄剩女可以破防到什么程度?发朋友圈且通知媒人,还向家人告状

大龄剩女可以破防到什么程度?发朋友圈且通知媒人,还向家人告状

丫头舫
2026-04-24 20:40:08
G3也是他的生死之战!火箭可能考虑交易申京:三大潜在目标曝光

G3也是他的生死之战!火箭可能考虑交易申京:三大潜在目标曝光

罗说NBA
2026-04-24 21:03:59
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
央视首次曝光:全球最强光刻机亮相,中国再次打破西方技术封锁!

央视首次曝光:全球最强光刻机亮相,中国再次打破西方技术封锁!

春之寞陌
2026-04-24 22:05:19
多国反对,中国专机抵美,G20峰会出现变故,80岁总统硬刚特朗普

多国反对,中国专机抵美,G20峰会出现变故,80岁总统硬刚特朗普

小影的娱乐
2026-04-24 16:20:33
31人抢一辆严重受损8400元起拍的小鹏汽车,有人出36800元拍下,法院称车主已在车祸中身亡

31人抢一辆严重受损8400元起拍的小鹏汽车,有人出36800元拍下,法院称车主已在车祸中身亡

极目新闻
2026-04-24 17:49:19
形势有多严峻?才4月份,广东就有公司放长假,多少人又要失业

形势有多严峻?才4月份,广东就有公司放长假,多少人又要失业

慧翔百科
2026-04-24 11:46:34
大反转:掌掴女家长的男保安,真实身份曝光!

大反转:掌掴女家长的男保安,真实身份曝光!

仕道
2026-04-24 08:12:39
美伊将进行第二轮谈判,美防长:谈判底线是“伊朗不可能获得核弹”,对伊朗封锁已扩展至全球范围,34艘船只在霍尔木兹海峡被勒令折返

美伊将进行第二轮谈判,美防长:谈判底线是“伊朗不可能获得核弹”,对伊朗封锁已扩展至全球范围,34艘船只在霍尔木兹海峡被勒令折返

鲁中晨报
2026-04-24 21:04:06
演唱会现场气味熏天!粉丝哭诉:求来之前洗个澡吧

演唱会现场气味熏天!粉丝哭诉:求来之前洗个澡吧

东方不败然多多
2026-04-24 16:03:20
姚顺雨带队、Hy3 preview上线!腾讯现在适合上车吗?

姚顺雨带队、Hy3 preview上线!腾讯现在适合上车吗?

机器之心Pro
2026-04-23 20:04:42
华晨宇抚仙湖项目叫停!中国顶级淡水命脉,绝不给流量资本让路

华晨宇抚仙湖项目叫停!中国顶级淡水命脉,绝不给流量资本让路

离离言几许
2026-04-24 07:25:41
数据炸裂,广州这一轮“开门红”,不只是增长这么简单

数据炸裂,广州这一轮“开门红”,不只是增长这么简单

智谷趋势
2026-04-24 11:02:40
千年难遇的美人,太漂亮了,没有一点毛病,太完美了

千年难遇的美人,太漂亮了,没有一点毛病,太完美了

情感大头说说
2026-04-24 12:46:24
老人1500元卖掉自家大狗,小孙女舍不得哭得撕心裂肺,狗贩心软不收了,只要求退回1300元,“那200块就当补偿小姑娘吧”

老人1500元卖掉自家大狗,小孙女舍不得哭得撕心裂肺,狗贩心软不收了,只要求退回1300元,“那200块就当补偿小姑娘吧”

观威海
2026-04-24 10:56:04
2026-04-25 01:56:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11685文章数 117043关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

航班提前起飞10分钟 大学生把海航告了

头条要闻

航班提前起飞10分钟 大学生把海航告了

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

家居
艺术
游戏
教育
军事航空

家居要闻

自然肌理 温润美学

艺术要闻

世界最高20座大楼,你见过几栋?

《光与影:33号远征队》发售一周年 销量破800万

教育要闻

帝国理工IC相当于国内什么大学?

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版