网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4发布:效率大幅提升,支持华为昇腾NPU

0
分享至


中国AI明星企业DeepSeek再度推出开放权重大语言模型,声称性能可媲美西方顶尖专有大语言模型。更值得关注的是,新模型大幅降低了推理成本,并新增对华为昇腾系列AI加速器的支持。

DeepSeek V4于近日正式发布,可在Hugging Face等主流模型仓库、官方API及网页服务上下载使用,共提供两种规格。其中较小的版本为拥有2840亿参数的Flash混合专家(MoE)模型,激活参数量为130亿;较大的版本则拥有1.6万亿参数,任意时刻激活参数量为490亿。

V4-Pro在33万亿Token上完成训练,据DeepSeek官方称,该模型在其基准测试集中超越了所有开放权重大语言模型,并可与西方最顶尖的专有模型相抗衡。

当然,这些说法仍需保持审慎态度。尽管DeepSeek凭借V3和R1系列模型建立起良好口碑,让这家中国开发商广为人知,但在标准化测试中表现优异,并不意味着在实际应用中同样出色。

从模型架构来看,DeepSeek V4引入了多项创新设计,据开发者称,这些改进将显著降低模型的服务成本。

首先是推出了规模较小的Flash模型。相较于大模型,Flash模型对基础设施要求更低,能以更低成本提供更流畅的交互体验。这一策略本身并不新鲜,但对DeepSeek而言却是首次在自研模型中正式采用。

更具实质意义的变化在于注意力机制的改进。模型的注意力机制决定了它如何将输入提示转化为键值对,进而生成输出Token。DeepSeek研究团队在随新模型发布的论文中,提出了一种结合压缩稀疏注意力(Compressed Sparse Attention)与重度压缩注意力(Heavy Compressed Attention)的混合注意力机制,旨在降低推理过程中的计算量,并减少用于追踪模型状态的键值缓存(KV Cache)所占用的内存。

KV Cache的压缩效果对V4的效率至关重要——这类缓存体积通常较大,推理服务商往往需要将其卸载至系统内存或闪存以避免冷启动延迟。更高压缩率的KV Cache意味着大规模推理部署所需的内存与存储空间显著减少。

综合以上技术,V4在支持百万Token上下文窗口的同时,内存占用较DeepSeek V3.2减少了9.5至13.7倍。

为进一步压缩内存占用,DeepSeek延续了使用低精度数据类型的传统。DeepSeek V3曾是最早采用FP8精度训练的开放权重模型之一,而V4两款模型均混合使用了FP8与FP4精度,并针对MoE专家权重采用了量化感知训练(Quantization-Aware Training)。FP4相比FP8可将模型权重所需的存储空间减少约一半,是一项显著的节省,前提是能够接受精度上的一定损失。

DeepSeek的架构改进不仅限于推理端。在V4中,开发团队还引入了名为Muon的全新优化器,旨在加速训练收敛并提升训练稳定性。

自研模型适配本土硬件

此次新模型中最引人关注、却着墨不多的一点,是其运行硬件的变化。DeepSeek V3曾深度优化以适配英伟达Hopper架构GPU,而V4已通过验证,可同时运行于英伟达与华为的加速器平台之上。

DeepSeek V4的技术论文仅在文中简短提及,指出该公司已在"英伟达GPU和昇腾NPU平台上验证了其细粒度专家并行(EP)方案"。

需要明确的是,这并不意味着该模型完全由华为硬件训练完成,仅表明DeepSeek已验证华为AI加速器可用于模型推理服务。

DeepSeek有可能采用了英伟达GPU完成预训练,再以华为加速器承担强化学习阶段的任务。强化学习是一种与推理过程相近的后训练步骤,用于向模型传授新技能、行为模式及思维链推理能力。不过,该论文并未对此作出直接说明。

总体而言,推理阶段对新兴芯片厂商的准入门槛较低。此前DeepSeek曾尝试使用华为芯片进行模型训练,但据报道,受芯片质量不稳定、互联速度过慢以及软件栈不成熟等问题影响,该计划受阻,DeepSeek最终重新回归英伟达平台。

此外,V4采用4比特精度数据类型,或令部分人联想到英伟达Blackwell加速器——该产品受出口管制,不得在中国销售。但实际上,这并非必要条件。Hopper GPU虽不支持FP4硬件加速,但仍可以纯权重模式使用该数据类型。这种方式对浮点计算性能无益,却能有效降低训练与推理阶段的内存占用和带宽需求,在众多使用场景中是值得考量的权衡方案。

价格极具竞争力

DeepSeek V4目前处于预览阶段,基础版与指令微调版均可下载或通过API调用。

小参数量的Flash模型API定价为每百万输入Token 0.14美元(非缓存)、每百万输出Token 0.28美元,颇具吸引力。大参数量的Pro模型价格相对较高,分别为每百万输入Token 1.74美元、每百万输出Token 3.48美元,但与西方AI厂商的顶尖模型相比,仍属极低水平。作为参照,OpenAI的GPT-5.5定价为每百万输入Token 5美元、每百万输出Token 30美元。

Q&A

Q1:DeepSeek V4相比V3有哪些核心改进?

A:DeepSeek V4引入了多项关键改进:一是混合注意力机制,结合压缩稀疏注意力与重度压缩注意力,大幅降低推理计算量和KV Cache内存占用,内存使用较V3.2减少9.5至13.7倍;二是同时使用FP8与FP4混度精度,进一步压缩存储需求;三是引入新优化器Muon,提升训练收敛速度与稳定性;四是新增对华为昇腾NPU平台的验证支持。

Q2:DeepSeek V4支持华为昇腾NPU,是否意味着它完全在华为硬件上训练?

A:不是。DeepSeek V4的论文仅说明已在华为昇腾NPU平台上验证了模型的专家并行推理方案,并未表明整个训练过程使用华为硬件完成。有可能预训练仍依赖英伟达GPU,强化学习阶段才引入华为加速器。目前论文未就训练硬件细节作出明确说明。

Q3:DeepSeek V4的API定价和OpenAI相比有什么差距?

A:差距相当显著。DeepSeek V4 Pro版本的API定价为每百万输入Token 1.74美元、每百万输出Token 3.48美元;而OpenAI的GPT-5.5则分别为5美元和30美元。即便是DeepSeek的旗舰Pro模型,其输出Token价格也仅为GPT-5.5的约十分之一,性价比优势突出。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TA补充皇马冲突内幕:巴尔韦德是罪魁祸首,他一整年都是这样

TA补充皇马冲突内幕:巴尔韦德是罪魁祸首,他一整年都是这样

懂球帝
2026-05-08 19:23:03
打回身价!里夫斯31+6创新高解锁500分里程碑 险被SGA夹伤胳膊

打回身价!里夫斯31+6创新高解锁500分里程碑 险被SGA夹伤胳膊

醉卧浮生
2026-05-08 12:23:05
普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

律法刑道
2026-05-08 11:06:45
香港2500万美元(约1.7亿元人民币)拿下世界杯转播权,此前FIFA给央视开出3亿美元天价,是印度的17倍

香港2500万美元(约1.7亿元人民币)拿下世界杯转播权,此前FIFA给央视开出3亿美元天价,是印度的17倍

浙江之声
2026-05-08 11:42:15
谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

晓栗
2026-05-08 01:08:33
拿完国家补贴,转头卖给美国?中方果断出手:叫停136亿天价收购

拿完国家补贴,转头卖给美国?中方果断出手:叫停136亿天价收购

童童聊娱乐啊
2026-05-09 02:05:10
美国政府突然公开UFO档案,看完有点无语

美国政府突然公开UFO档案,看完有点无语

万物皆可科普2啊
2026-05-09 03:36:41
为啥有人说跑高速时,挡风玻璃擦的越干净,车里的人就越危险?

为啥有人说跑高速时,挡风玻璃擦的越干净,车里的人就越危险?

向航说
2026-05-08 22:00:03
伊朗总统披露与最高领袖会面细节:谦逊而真诚的态度令人印象深刻,交流坦率直接,充满亲近感与信任感

伊朗总统披露与最高领袖会面细节:谦逊而真诚的态度令人印象深刻,交流坦率直接,充满亲近感与信任感

极目新闻
2026-05-07 22:41:37
7年败光2亿!邹市明冉莹颖同步发文:他俩最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖同步发文:他俩最终还是迈出了这一步!

拳击时空
2026-05-09 06:04:14
印尼卡中企镍矿脖子?拉菲律宾搭伙搞同盟,中企几招反杀太解气

印尼卡中企镍矿脖子?拉菲律宾搭伙搞同盟,中企几招反杀太解气

倾世璃歌
2026-05-08 22:01:34
郭德纲、于谦相声再被举报!

郭德纲、于谦相声再被举报!

天津人
2026-05-08 15:12:33
175年玻璃老厂翻身,靠光纤拿下英伟达超级订单

175年玻璃老厂翻身,靠光纤拿下英伟达超级订单

DeepTech深科技
2026-05-08 10:39:17
挥泪斩马谡!皇马正式批准出售1亿“顶星”!2.5亿强援空降伯纳乌

挥泪斩马谡!皇马正式批准出售1亿“顶星”!2.5亿强援空降伯纳乌

头狼追球
2026-05-08 17:23:49
彻底决裂!皇马更衣室揪出内鬼,全队矛头直指伯纳乌巨星

彻底决裂!皇马更衣室揪出内鬼,全队矛头直指伯纳乌巨星

奶盖熊本熊
2026-05-09 04:42:05
搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

原来仙女不讲理
2026-05-07 23:09:21
女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

智慧生活笔记
2026-05-08 11:37:52
浙江一婚礼现场,男子自称“男方父亲的亲戚”,从容用餐饮酒,宾客离场后主办方清点物品时傻眼了,立刻报警

浙江一婚礼现场,男子自称“男方父亲的亲戚”,从容用餐饮酒,宾客离场后主办方清点物品时傻眼了,立刻报警

环球网资讯
2026-05-08 20:22:11
38岁本泽马率新月2-1逆转 加盟3个月即获首冠 4天后与C罗联赛决战

38岁本泽马率新月2-1逆转 加盟3个月即获首冠 4天后与C罗联赛决战

我爱英超
2026-05-09 06:40:03
马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

橙色书卷
2026-05-06 21:19:04
2026-05-09 08:52:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18279文章数 49703关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

教育
手机
本地
艺术
公开课

教育要闻

你收到过最烂的礼物是什么?

手机要闻

OPPO K15系列手机规格曝光:6.78英寸直屏、8000mAh电池

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

清风拂面,心旷神怡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版