![]()
中国AI明星企业DeepSeek再度推出开放权重大语言模型,声称性能可媲美西方顶尖专有大语言模型。更值得关注的是,新模型大幅降低了推理成本,并新增对华为昇腾系列AI加速器的支持。
DeepSeek V4于近日正式发布,可在Hugging Face等主流模型仓库、官方API及网页服务上下载使用,共提供两种规格。其中较小的版本为拥有2840亿参数的Flash混合专家(MoE)模型,激活参数量为130亿;较大的版本则拥有1.6万亿参数,任意时刻激活参数量为490亿。
V4-Pro在33万亿Token上完成训练,据DeepSeek官方称,该模型在其基准测试集中超越了所有开放权重大语言模型,并可与西方最顶尖的专有模型相抗衡。
当然,这些说法仍需保持审慎态度。尽管DeepSeek凭借V3和R1系列模型建立起良好口碑,让这家中国开发商广为人知,但在标准化测试中表现优异,并不意味着在实际应用中同样出色。
从模型架构来看,DeepSeek V4引入了多项创新设计,据开发者称,这些改进将显著降低模型的服务成本。
首先是推出了规模较小的Flash模型。相较于大模型,Flash模型对基础设施要求更低,能以更低成本提供更流畅的交互体验。这一策略本身并不新鲜,但对DeepSeek而言却是首次在自研模型中正式采用。
更具实质意义的变化在于注意力机制的改进。模型的注意力机制决定了它如何将输入提示转化为键值对,进而生成输出Token。DeepSeek研究团队在随新模型发布的论文中,提出了一种结合压缩稀疏注意力(Compressed Sparse Attention)与重度压缩注意力(Heavy Compressed Attention)的混合注意力机制,旨在降低推理过程中的计算量,并减少用于追踪模型状态的键值缓存(KV Cache)所占用的内存。
KV Cache的压缩效果对V4的效率至关重要——这类缓存体积通常较大,推理服务商往往需要将其卸载至系统内存或闪存以避免冷启动延迟。更高压缩率的KV Cache意味着大规模推理部署所需的内存与存储空间显著减少。
综合以上技术,V4在支持百万Token上下文窗口的同时,内存占用较DeepSeek V3.2减少了9.5至13.7倍。
为进一步压缩内存占用,DeepSeek延续了使用低精度数据类型的传统。DeepSeek V3曾是最早采用FP8精度训练的开放权重模型之一,而V4两款模型均混合使用了FP8与FP4精度,并针对MoE专家权重采用了量化感知训练(Quantization-Aware Training)。FP4相比FP8可将模型权重所需的存储空间减少约一半,是一项显著的节省,前提是能够接受精度上的一定损失。
DeepSeek的架构改进不仅限于推理端。在V4中,开发团队还引入了名为Muon的全新优化器,旨在加速训练收敛并提升训练稳定性。
自研模型适配本土硬件
此次新模型中最引人关注、却着墨不多的一点,是其运行硬件的变化。DeepSeek V3曾深度优化以适配英伟达Hopper架构GPU,而V4已通过验证,可同时运行于英伟达与华为的加速器平台之上。
DeepSeek V4的技术论文仅在文中简短提及,指出该公司已在"英伟达GPU和昇腾NPU平台上验证了其细粒度专家并行(EP)方案"。
需要明确的是,这并不意味着该模型完全由华为硬件训练完成,仅表明DeepSeek已验证华为AI加速器可用于模型推理服务。
DeepSeek有可能采用了英伟达GPU完成预训练,再以华为加速器承担强化学习阶段的任务。强化学习是一种与推理过程相近的后训练步骤,用于向模型传授新技能、行为模式及思维链推理能力。不过,该论文并未对此作出直接说明。
总体而言,推理阶段对新兴芯片厂商的准入门槛较低。此前DeepSeek曾尝试使用华为芯片进行模型训练,但据报道,受芯片质量不稳定、互联速度过慢以及软件栈不成熟等问题影响,该计划受阻,DeepSeek最终重新回归英伟达平台。
此外,V4采用4比特精度数据类型,或令部分人联想到英伟达Blackwell加速器——该产品受出口管制,不得在中国销售。但实际上,这并非必要条件。Hopper GPU虽不支持FP4硬件加速,但仍可以纯权重模式使用该数据类型。这种方式对浮点计算性能无益,却能有效降低训练与推理阶段的内存占用和带宽需求,在众多使用场景中是值得考量的权衡方案。
价格极具竞争力
DeepSeek V4目前处于预览阶段,基础版与指令微调版均可下载或通过API调用。
小参数量的Flash模型API定价为每百万输入Token 0.14美元(非缓存)、每百万输出Token 0.28美元,颇具吸引力。大参数量的Pro模型价格相对较高,分别为每百万输入Token 1.74美元、每百万输出Token 3.48美元,但与西方AI厂商的顶尖模型相比,仍属极低水平。作为参照,OpenAI的GPT-5.5定价为每百万输入Token 5美元、每百万输出Token 30美元。
Q&A
Q1:DeepSeek V4相比V3有哪些核心改进?
A:DeepSeek V4引入了多项关键改进:一是混合注意力机制,结合压缩稀疏注意力与重度压缩注意力,大幅降低推理计算量和KV Cache内存占用,内存使用较V3.2减少9.5至13.7倍;二是同时使用FP8与FP4混度精度,进一步压缩存储需求;三是引入新优化器Muon,提升训练收敛速度与稳定性;四是新增对华为昇腾NPU平台的验证支持。
Q2:DeepSeek V4支持华为昇腾NPU,是否意味着它完全在华为硬件上训练?
A:不是。DeepSeek V4的论文仅说明已在华为昇腾NPU平台上验证了模型的专家并行推理方案,并未表明整个训练过程使用华为硬件完成。有可能预训练仍依赖英伟达GPU,强化学习阶段才引入华为加速器。目前论文未就训练硬件细节作出明确说明。
Q3:DeepSeek V4的API定价和OpenAI相比有什么差距?
A:差距相当显著。DeepSeek V4 Pro版本的API定价为每百万输入Token 1.74美元、每百万输出Token 3.48美元;而OpenAI的GPT-5.5则分别为5美元和30美元。即便是DeepSeek的旗舰Pro模型,其输出Token价格也仅为GPT-5.5的约十分之一,性价比优势突出。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.