DeepSeek-V4：华为昇腾适配、性价比王者、最新底层技术|算法|信号|推理|gpu|多模态|知名企业|deepseek

DeepSeek-V4：华为昇腾适配、性价比王者、最新底层技术

2026-04-24 14:16:25　来源: AI科技评论

广东举报

分享至

交付质量接近 Opus 4.6 非思考模式，与思考模式存在一定差距。

作者丨梁丙鉴

编辑丨马晓宁

越过数个发布窗口，4 月 24 日，DeepSeek 最新一代旗舰模型 DeepSeek-V4 终于正式发布。

此次发布的 DeepSeek-V4 主打百万字超长上下文，在 Agent 能力、世界知识和推理性能上均表现亮眼。有意思的是，4 月 8 日凌晨 DeepSeek 悄然上线了专家模式和快速模式，外界一度猜测是 V4 的不同版本。这一猜测得到了官方确认，按参数量大小，V4 此次同步推出了 pro 及 flash 两个版本。

相较于前代模型，V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 评测中，已达到当前开源模型最佳水平，且在其它 Agent 相关评测中同样表现优异。DeepSeek 内部评测反馈显示，DeepSeek-V4-Pro 使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知识推理类基准测试中，DeepSeek V4 的表现均居于前列，特别是在ApexShortlist、Codeforces 两项测试中分别以 90.2 和 3206 的成绩登顶，表现出了顶级的推理性能和世界知识储备。

价格方面，pro 版本和 flash 版本采取了阶梯定价。更小更快的 flash 版本继承了前代模型便宜大碗路线的，同时 pro 版本的降价也被官方排上日程，预计会随着今年下半年昇腾 950 超节点的批量上市实现大幅下调。

值得注意的是，DeepSeek-V4 针对昇腾等国产芯片进行了深度适配，实现推理环节全面兼容，有传闻称利用率可达 85％以上。而据路透社报道，此前 DeepSeek 也拒绝向包括英伟达在内的美国芯片制造商提供 V4 模型的早期访问权限。

在美国对华出台高端 GPU 禁令、限制技术交流的背景下，DeepSeek 选择以技术对等的姿态回应，和美方的脱钩构成了一种有趣的镜像关系。而回到国内，DeepSeek-V4 的背书证明了国产芯片足以支持第一梯队大模型的推理部署，开始完成从“可用”到“好用”的跨越。同时被国产算力托住的 V4，也或可视为一个备战“全华班模型生态”的起点。

架构创新，破解模型推理“不可能三角”

DeepSeek-V4 的上下文窗口跨越式地来到了 100 万 Token 大关，并宣称这此后将是 DeepSeek 所有官方服务的标配。

据官方技术文档介绍，这种长文本能力的成熟源于 DeepSeek 开创的一种全新注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），此举不仅实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。

DeepSeek 对长文本能力的探索早有迹象。在 V4 迟迟没有问世的时间里，DeepSeek 低调发布的两篇论文《mHC: Manifold-Constrained Hyper-Connections》，和两周以后紧随其后的《Engram: Conditional Memory via Scalable Lookup》，被外界视为其在长文本方面的有力技术储备。

在长文本推理任务中，大模型长期存在着成本、速度、精度的不可能三角，但 Engram 架构提供了一种破局思路。该架构包含一个静态知识检索模块，和一个动态推理协同模块，前者通过哈希查找机制，将事实性知识存储在廉价的 CPU 内存中，节省了对推理尤其宝贵的 GPU 显存，后者负责判断检索到的记忆是否应该调用，并在必要时将其无缝融入推理过程。

这种设计的本质是将模型的记忆和计算分离，通过对信息存储进行更精细的分层管理，使大模型能用上廉价、大容量的 CPU 内容，并确保 GPU 显存“好钢用在刀刃上”，在其擅长的动态并行计算中发挥出更大价值，最终在降低计算成本的同时保证关键信息不会丢失。其结果是当 MoE 的“专家”们再进行推理时，会像是配备了一位专门的助理，确保他们得到的信息及时、相关且准确。

DeepSeek-V4 的另一项底层创新，是其在训练中使用的 mHC（流形约束超连接）技术。

V4 的参数总量达到了 1.6T，这种超大规模的神经网络训练，本身就是一个富于挑战的问题。传统的 Transformer 架构中，信息会在层层传递中呈指数级放大，模型参数量越大、层数越深，这种“信号爆炸”越严重，最终可能导致梯度爆炸，训练崩溃。

mHC 技术正是为解决“信号爆炸”现象提出，其核心思想是用严格的几何约束来控制信息流动，而不是放任自由连接。

这个防爆设计由三个环节组成。流形约束会把层间连接矩阵投影到双随机矩阵流形，强制规定每个节点的"输入总和"和"输出总和"必须守恒，具体的投影过程通过 Sinkhorn-Knopp 算法执行，两者共同把信号增益严格限制在合理倍数。最后的多流残差设计在扩展残差流宽度的同时，通过非负约束避免信号相互抵消，既能增强模型表达能力，又兼顾了复杂度和稳定性。

想象信息是一条奔腾的大河，多流残差拓宽了河道，流形约束和 Sinkhorn-Knopp 算法就是一道道闸门，三者的配合保证了大规模训练时的信息洪流不会引发梯度爆炸。

而 mHC 技术更深刻的意义在于，它和 MoE 架构、Engram 架构等技术共同为后 Scaling Law 时代的大模型扩展提供了一种可能的范式，也就是在参数规模、数据量的传统维度之外，转向追求更高的连接、参数和记忆效率。区别于前者的暴力美学，DeepSeek-V4 呈现了精致工程的魔力。

模型之争的工程转向

用流形约束防止信号爆炸的架构理论创新得以落地，离不开算子融合、选择性重计算、通信重叠等工程手段。参数量和稳定性之间的冲突曾经是制约大模型继续扩展的根本矛盾，而 mHC 技术对此的突破，建立在顶级的工程优化之上。

Engram 架构也有着类似的启示。内存访问如何精准配合 GPU 的计算过程，多级缓存需要什么样的精细管理……Engram 架构在 V4 上落地伴随的种种工程挑战，才是底层技术创新能否转化为模型能力关键。

智能的使用应有其边界，记忆管理的精细程度直接影响模型性能，这一范式重新诠释了对智能上限的追求。未来最聪明的模型，或许是最经济地界定了智能使用边界的模型。

DeepSeek-V4 问世之后，我们和应用爆发之间的距离或许又近了一大步。

原生多模态架构、百万 Token 上下文窗口纷纷走向成熟，背后是代码、法律和金融等场景的巨大想象空间。而 V4 所展现的顶级工程能力，和模型智能迭代逐渐放缓的背景合流，更便宜、可得的智能产品也会不断涌现。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.