文 | 半导体产业纵横
千呼万唤之下,DeepSeek V4终于发布了。从今年初开始,业内对V4的期待一直悬着,等着发布日期,等着技术报告,等着模型上线。4月24日,这只靴子终于落地。
DeepSeek V4正式发布,同步开源。同一天,华为云首发适配。
这一天,有三件事值得记下来:
第一件事:AI算力终于来到了普惠时代,而且这次落地的是开源模型。
第二件事:这次适配华为昇腾等国产芯片。
第三件事:金山办公、360等企业已通过华为云接入DeepSeek新模型。模型一上线,应用就已经在跑了,这说明云是AI落地的最佳平台。
三件事,各有各的分量。放在一起,就是中国AI生态跨越量变、走向质变的分水岭。
01 华为云深度优化首发适配
华为云首发适配了DeepSeek-V4模型。
DeepSeek V4的适配,难度比以往更高。据了解,V4这次适配最大的技术挑战,来自模型架构本身的全面创新。据业内工程师表示,“Deepseek V4模型相对之前的模型创新非常大,在Attention模块基本上是完全创新,创新性地引入Compressor模块,不管是在模型适配和还是在算子适配上都需要进行全新地开发和调优。”
最大的挑战,来自1M长上下文的适配支持。过去一年,模型的上下文窗口一直是行业竞争的焦点。从GPT-4的32K,到Claude 3的200K,再到Google Gemini率先突破1M,百万级上下文窗口正在成为头部模型的新标配。V4的出现,也将数据拉到了百万量级。
从256K到1M,这不是简单的数字增长,而是对KVCache(键值缓存)管理、推理平台压力测试、内存调度能力的一次全面升级。面对这个挑战,华为云在系统层、算子层和集群层做了三层协同。
第一层是系统层的调度优化,PD分离调度。V4的Attention架构引入了全新的Compressor模块,KvCache(键值缓存)的管理逻辑和以往完全不同。华为云做了几件事:一是修改vLLM的KvCache管理模块,能够高效分配和管理不同的KvCache Group,这是V4架构下的新需求。二是重新设计PD分离模块。PD指的是Prefill(预填充)和Decode(解码)两个阶段。以往它们混在一起计算,但这两个阶段计算特性差异很大。PD分离调度的核心是:让Prefill和Decode各自跑在适合自己的计算资源上,计算链路解耦、独立伸缩、精细化调度,提高首token时延、增量时延及整体吞吐表现。
第二层:算子层的计算优化,融合算子。适配V4,光靠通用算子是不够的。V4的Compressor模块融合了大量小算子,如果用传统的原子算子逐个调用,Kernel启动开销会成为性能的致命瓶颈。华为云的解决方案是:融合算子,把多个小算子合并成一个“大算子”一次性执行。特别是LI算子和Compressor算子,融合了大量小算子,大幅减少了算子的Kernel Launch开销。通过算子融合、布局优化和访存重排,提升单卡执行效率与端到端性能。
第三层:集群层的架构优化,互联存储。V4的大规模部署依赖多机多卡并行,权重加载、KV Cache共享、跨节点通信、中间状态传输,每一个环节都可能成为瓶颈。互联存储架构解决的是带宽、时延与一致性的瓶颈,支撑大规模并行部署下的稳定扩展。
通过三层优化协同,分别从调度效率、计算效率和数据流转效率三个维度,保障新模型快速适配与高性能落地。
还有一个细节,V4采用了FP4+FP8混合精度训练。在脱离英伟达生态的背景下,这套低精度混合训练方案大概率是基于深度定制的内部格式实现的。结合近期昇腾950超节点不仅全面支持FP8/MXFP4,更推出了自研的高效HiF8数据格式,这从侧面印证了:华为底层的算力架构与低精度混合训练技术,已经具备支撑万亿级大模型的能力。
02 百万上下文,用得起
一年多前,DeepSeek-V3的发布在行业内炸出了一片水花。
DeepSeek像一条鲶鱼,把AI大模型的价格从“高高在上”拉到了“人人可用”。API调用的成本是GPT-4的百分之一,性能却能正面硬刚,这是DeepSeek给整个行业留下最深的印象。
但过去一年,行业的牌桌变了。从AI Agent的爆发到百万级长文本的普及,Token的消耗量正呈指数级激增。当下的行业陷入了一个悖论:AI越来越好用,但AI也越来越贵。
因此,市场对V4最大的期待不仅是技术指标的攀升,更是:百万级别的AI普惠,何时真正落地?
DeepSeek给出了它的回应:从现在开始,1M上下文将是DeepSeek所有官方服务的标配。同时,在价格上继续保持了极强的压迫感, V4-Flash输入(缓存命中)打到了0.2元/百万tokens,V4-Pro限时优惠输入(缓存命中)低至0.25元/百万tokens;预计下半年昇腾950批量上市后,Pro价格还会大幅下调。
![]()
![]()
这种“加量不加价”的底气,背后是两条技术路线的深度交汇。
第一条路线,是DeepSeek在算法层面的“精打细算”。从V3到V4,DeepSeek在MoE路线上越走越深。V4每层384个专家,每次激活6个专家,通过这种极其细粒度的专家分割和智能路由,V4在成倍扩大模型参数、提升能力的同时,将实际激活的计算量死死按在了合理区间。简单来说,用户无需为模型中那些“沉睡”的参数买单。
第二条路线,则是华为云在基础设施层面的算力托底。模型本身的降本只是第一步,要让产业真正“用得起”,还需要云端算力的同步下沉。华为云在这里扮演了“普及者”的角色。首先,降低使用门槛。华为云MaaS平台为开发者提供免部署、一键调用V4-Flash API的服务。中小企业和开发者不需要关心底层芯片,无需自己管理集群即可接入。其次,扩大覆盖范围。当前华为云已适配160多个行业主流大模型,无论是大规模企业还是初创团队,都能在华为云的AI基础设施中找到适合的接入方式。最后,持续优化成本。通过模型蒸馏、量化压缩和高效推理,华为云将百万级上下文的使用门槛拉低到了极具商业竞争力的水平,让“用得起”这件事真正落地。
这种普惠并非简单的“降价促销”,而是建立在“昇腾芯片—CANN异构计算架构—华为云服务”三层协同的基础之上,是硬核工程能力兑现的结果。
当然,国产算力的突围绝非一蹴而就。据DeepSeek披露,受限于当前高端算力的供给,目前V4-Pro的服务吞吐仍有局限。但同时也释放了一个明确的预期:预计下半年昇腾950超节点批量上市后,其价格仍有进一步下调的空间。
这种算力成本的持续下探,带来的绝不仅仅是软件调用的狂欢,更是直接扣动了海量智能端快速普及的扳机。当百万上下文的推理成本低至几毛钱,AI将彻底突破云端SaaS的边界,加速向AI PC、智能汽车、具身机器人乃至庞大的IoT生态蔓延。端侧设备无需再受制于昂贵的本地算力瓶颈,只要接入云端,就能随时唤醒最聪明的“大脑”。
AI的普惠,终局就是成为像水、电一样的基础设施。水利工程的意义不是让家家户户去买抽水机,而是拧开水龙头就有水;算力普惠的意义,也不在于让每个企业都去囤积昂贵的GPU,而是通过云端按需调用。在这里,华为云的存在就如同AI时代的“硅基黑土地”。
03 这一次,中国算力起立
金山办公、360等国民级软件在DeepSeek V4发布同一天,就通过华为云完成了新模型的接入。
不要小看这个“Day 0”同步上线的动作。在过去,大模型的发布往往是“期货”,模型发了,应用端要等平台调试、等算力到位、等接口稳定,中间有着漫长的时滞。而这一次,模型一上线,千万级用户的核心业务场景就已经在上面跑了。
这印证了一个残酷但令人振奋的产业现实:只有底层的算力基建足够稳固,上层的商业应用才能跑得如此轻盈。长久以来,国内AI产业的发展始终悬着一把达摩克利斯之剑——对海外高端GPU生态的重度依赖。单点技术的突破不少见,但难以串联成一条完整的商业流水线。
DeepSeek V4在华为云上的首发适配并规模化落地,不仅是业务的跑通,更是一场极其鲜明的生态跃迁:中国AI产业,正在实质性地跨过CUDA的封锁线,向以“华为昇腾硬件+CANN异构计算架构”为核心的国产智算生态全面迁徙。
![]()
真正意义上宣告了一个国产AI全栈闭环的成型。在这里,我们看到了五个层面的“握手”:芯片层,以昇腾系列为代表的国产算力硬件,真正扛起了高压拉练;框架层,华为CANN计算架构等底层软件,完成了对复杂算子和万亿参数调度的深度优化;云平台,华为云作为超级枢纽,将底层生硬的算力转化为了灵活、可调用的服务;模型层,DeepSeek V4作为中国原生的顶尖大模型,提供了世界级的智力引擎;应用层,金山办公、360等头部企业的迅速接入,补齐了将AI转化为实际生产力的最后一块拼图。
“模型-芯片-服务器-云平台-应用”,这条完整的国产化链路首次被打通并接受了真实商业环境的检验。这意味着,中国的人口红利和海量数据,终于可以跑在中国人自己的算力网络和模型架构上。
这一次,中国算力不再是英伟达阴影下的备选方案,而是真正站上了牌桌。
04 结语
在DeepSeek正式发布V4的文章末尾,写了这样一句话:“不诱于誉,不恐于诽,率道而行,端然正己。”这句话放在当下的百模大战中,显得尤为克制,也尤为清醒。
“率道而行”,究竟什么是大模型时代的“道”?
其实就是回归商业的常识,回归技术的本源。对于DeepSeek而言,它的道是死磕算法上限,用极客精神把模型做轻、把能力做强;而对于华为云而言,它的道则是向下扎根,做中国AI产业最坚实的底座。
把百万上下文的高端模型拉下神坛,让数以万计的开发者和企业能够通过API毫无阻碍地接入,这背后需要填平无数个算子优化的坑,扛住庞大集群调度的压力。华为云正在做的,就是把这些最苦、最重、最底层的“脏活累活”包揽下来,将复杂留给算力平台,将极简的普惠交还给应用生态。
中国大模型的发展,已经走过了盲目对标的狂热期,进入了比拼基础设施、比拼落地成本的深水区。
在这个深水区里,我们需要DeepSeek这样的破局者来定义“中国模型”的上限,更需要华为云这样的布道者来夯实“中国算力”的底盘。当模型与算力完成如此深度的咬合,当技术创新与商业化落地形成闭环,这正是属于中国AI产业独有的“中国节奏”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.