中信证券：国产算力黄金发展期到来关注三条投资主线|上下文|算力需求|知名企业

中信证券：国产算力黄金发展期到来关注三条投资主线

2026-04-27 08:55:11　来源: 金融界

北京举报

分享至

智通财经获悉，中信证券发布研报称，DeepSeek-V4预览版发布，其参数量相对上一代提升一倍，性能比肩全球闭源模型，达到开源模型SOTA，算力成本继续优化，高性价比百万上下文模型普惠时代到来。DeepSeek-V4在混合注意力机制、mHC、Muon等核心方向创新升级，计算网络比、异构KV Cache、FP4量化感知创新等创新亮点诸多。国产算力与国产模型继续相向而行、深度适配，国产算力黄金发展期到来。DeepSeek-V4延续开源策略，成本大幅下降，并在上下文长度、Agent等能力上进一步提升，全面利好复杂应用场景落地。

投资策略：建议关注以下三条投资主线。

1)AI基础设施：DeepSeek深度适配国产算力，国产算力与国产模型相向而行。

2)AI应用：模型延续开源的策略，输入输出成本大幅下降，并在上下文长度、Agent等能力上进一步提升，利好复杂应用场景及有壁垒的应用公司。

3)模型原厂：DeepSeek新一代模型有望与其他国产模型携手，驱动中国AI加速走向世界，同时模型训推进一步降本，更廉价的tokens驱动全球大模型API调用量整体增加。

中信证券主要观点如下：

DeepSeek-V4预览版：参数量相对上一代提升一倍，百万上下文高性价比模型问世。

4月24日午间，DeepSeek发布新一代模型V4-Preview，包含DeepSeek-V4-Pro和DeepSeek-V4-Flash两款基模，均支持1M上下文窗口。两款模型定位不同：1)V4-Pro定位为高性能专家模型，总参数1.6T、激活参数 49B，其中1.6T参数相对DeepSeek V3.2提升一倍以上;2)V4-Flash定位为高性价比快速模型，总参数 284B、激活参数13B。定价方面，DeepSeek-V4-Pro于4月24日官方定价为输入¥12/MTokens，输出¥24/MTokens，4月25日官宣折扣后降至输入¥3/MTokens，输出¥6/MTokens，折扣后相较全球主流大模型具备极高性价比。据DeepSeek官方微信公众号，目前Pro版模型服务吞吐十分有限，DeepSeek预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

模型性能：测评、使用表现比肩全球闭源模型，达到开源模型SOTA。

官方论文从推理、长上下文、Agentic Coding等维度对比了闭源模型和开源模型：知识型任务中，DeepSeek-V4-Pro-Max优于开源模型，缩小与闭源模型的差距;推理任务中，DeepSeek-V4-Pro-Max超过GPT-5.2和Gemini-3.0-Pro，略逊于GPT-5.4和Gemini 3.1-Pro，DeepSeek-V4-Flash-Max与GPT-5.2、Gemini-3.0-Pro相当;Agent任务中，DeepSeek-V4-Pro-Max与领先的开源模型相当，略逊于前沿闭源模型，内部评估中，优于Claude Sonnet 4.5，接近Opus 4.5的水平。产业实测中，长上下文能力走向实用及其稳定性获得好评，编程能力进步明显，在Arena.ai代码竞技场中，排名开源模型第3位。

模型创新：混合注意力机制、mHC、Muon等核心方向创新升级。

1)创新采用CSA+HCA混合注意力架构，压缩自注意力层计算开支及缓存占用。DeepSeek V4 Preview延续历代模型的自注意力层(Attention)降本提效思路，模型在Attention层中交错使用压缩稀疏注意力(CSA)和重度压缩注意力(HCA)结构，将多个token的KV Cache压缩为一个KV条目，使模型保证对超长上下文信息理解的基础上，极致压缩计算开支及缓存占用。据DeepSeek官网论文披露，在100万Token上下文场景下，DeepSeek-V4-Pro相较DeepSeek-V3.2仅需27%的单Token推理FLOPs和10%的KV Cache;DeepSeek-V4-Flash进一步降至10%的单Token推理FLOPs和7%的KV Cache。

2)mHC更新残差连接范式，沿用V3后训练机制引入在线混合蒸馏策略。经典HC(Hyper-Connections)在模型层次加深的过程中容易出现梯度消失、梯度爆炸等问题，限制模型参数量扩大。DeepSeek V4提出流形约束超连接(mHC)结构，保留模型各层之间多路径信息传递的基础上，限制每一层对信息的放大/缩小幅度，增强在更深层结构和更长上下文训练中模型的稳定性。DeepSeek V4的后训练环节在沿用V3.2框架的基础上引入在线混合蒸馏策略(OPD)，先针对数学、代码、Agent、指令遵循等方向训练出多个领域专家模型，再将其通过蒸馏方式合并到一个统一学生模型中。DeepSeek V4通过多项训练机制方面的算法创新，进一步提升了超高参数规模和超长上下文模型训练过程的稳定性。

算力优化：计算网络比、异构KV Cache、FP4量化感知创新等创新亮点诸多。

1)计算与通信存在最优配比，有利于国产算力定向优化。DeepSeek V4 提出的计算通信比理论，是 MoE 大模型系统优化的重要突破，改变了行业内 “MoE 效率必须依赖极致高带宽” 的惯性认知。DeepSeek V4 设计了细粒度波次调度的专家并行方案，实现了通信与计算的全量重叠，实测最高带来 1.96 倍的性能提升。基于新的EP并行方案实验结果和理论推导，DeepSeek得到了计算和通信的最优配比，DeepSeek指出，MoE 专家并行的核心瓶颈并非带宽绝对值，而是算力与带宽的配比是否满足平衡阈值。团队通过量化推导，给出了 MoE 架构的黄金平衡点：6144 FLOPs/Byte，即每 1GB/s 的互联带宽，足以完全支撑 6.1 TFLOP/s 算力对应的通信需求。当带宽满足这一阈值后，继续堆叠带宽将会进一步占用芯片面积，压缩芯片负责计算部分的面积，可能带来边际收益递减。这一理论为国产硬件崛起提供理论支撑，国产算力芯片与超节点有望从中受益。

2)创新性优化KV Cache，SSD重要性提升、端侧部署潜在受益。DeepSeek V4把KV Cache拆成两类异构压缩，是创新性工程突破，V4-Pro 百万级上下文窗口的KV占用仅为V3.2的10%、V4-Flash则仅为上一代的7%，是首个基于部分KV Cache在SSD Off-load所训练出来的开源frontier model。基于这一异构分级机制，模型把定稿历史块全量搬到Disk，通过冷热数据高效解耦，针对热的SWA窗口数据，论文给出三档策略，按场景在写入压力与重算成本间灵活权衡。在云端，V4的方案通过把共享前缀一次压缩、跳过重复预填充等方式，提升了SSD在数据中心的重要性;在边端，有效降低了边端模型的部署成本和门槛，因为以几B到小几十B参数的边端模型为例，在Q4量化的情况下，通常权重只有几到十几GB，但1M上下文的稠密模型的Kv Cache可能数倍于权重。

国产算力：国产模型继续相向而行。

在DeepSeek模型发布当天，国产芯片纷纷宣布day0适配，国产模型的发展将进一步助推国产算力发展，国产算力与模型继续相向而行。

1)V4 强化了国产算力的确定性。过去市场担心国产 AI 芯片使用场景有限，当前V4 的同步适配说明国产芯片正在进入主流开源大模型生态。

2)V4 改变了国产算力的需求结构。不只是关注训练卡，而是要更重视推理卡、超节点、互联、液冷和软件栈;未来订单的核心不是“谁单卡算力最高”，而是“谁能以最低成本稳定跑DeepSeek此类大模型”。

3)V4 提高了国产算力商业化天花板。当 1M 上下文、Agent、Coding 进入低成本可用阶段，企业级 AI 应用会从试点走向规模部署，国产算力的需求会从政策驱动转向真实业务驱动。

应用影响：DeepSeek V4延续开源的策略，输入输出成本大幅下降，并在上下文长度、Agent等能力上进一步提升，利好复杂应用场景落地。

DeepSeek通过高性价比的推理成本降低应用门槛，未来将创造新的商业模式，在此基础上，具备行业know-how属性、深层嵌入企业记录/交易/支付等功能的软件公司，在垂直细分场景具备私域数据壁垒的专业软件公司，受行业强监管、需要交付结果的软件公司等，有望充分受益于AI赋能带来价值增长。

风险因素：

AI核心技术发展、应用拓展不及预期，算力降本不及预期，AI被不当使用造成严重社会影响，数据安全风险，信息安全风险，行业竞争加剧。

本文源自：智通财经网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.