来源:市场资讯
(来源:科技头版)
![]()
英伟达独大的日子要一去不返了。
出品 | 科技头版 作者 | 李新
“DeepSeek如果选择在华为芯片上完成首发,对美国来说将是一场灾难。”
这话是英伟达CEO黄仁勋不久前在公开场合亲口说的。
这番话背景是,DeepSeek已经提前好几周在跟华为做软件适配和优化,新一代旗舰模型DeepSeek V4转向了华为昇腾AI芯片。
在此之前,DeepSeek一直用的是英伟达的芯片,底层跑的也是英伟达主导的CUDA平台。
这次切换,意味着“国产最强模型”加上“国产自主算力”这套组合,正式拉出来实战了。
因此,黄仁勋说这话的时候,大概心里已经有了不好的预感。
然而仅仅过了九天,华为昇腾官方就宣布,DeepSeek V4在昇腾平台完成首发适配。
黄仁勋的噩梦,还是成真了。
![]()
DeepSeek遇上华为,新一代大模型来了
上周五,DeepSeek V4正式发布并开源。这次发布最让人关注的,除了模型能力的大幅提升,还有一个关键信息:它是第一个在华为昇腾NPU上完成首发的万亿参数级大模型。
先来看看这个新模型本身。
这次发布了两个版本,旗舰版叫V4-Pro,轻量版叫V4-Flash。两个版本都支持100万token的超长上下文,并且采用MIT协议完全开源。
架构方面,DeepSeek V4采用了混合专家架构,同时引入了混合注意力机制,通过token维度的压缩技术,KV缓存的内存占用比上一代降低了大约90%。
也就是说,在百万上下文这种极端场景下,每个token的算力消耗只有V3.2的27%。
在Agent能力、数学推理、代码生成这些核心指标上,V4都达到了开源模型的领先水平,拿出来跟全球顶级的闭源模型比,也不落下风。
![]()
价格方面,下手更狠。
V4-Flash的定价是输入1元每百万token,输出2元;V4-Pro输入12元,输出24元。
与同期OpenAI的GPT-5.5来对比一下,它的输出定价是30美元每百万token。换算下来,两边差了一百多倍。
能把价格压到这个程度,本质上靠的是技术突破。
DeepSeek在模型架构上做了大量创新,刚才提到的混合注意力机制和token压缩技术,让推理时的内存占用和计算量都大幅下降。
同时,混合专家架构配合细粒度的专家并行策略,让模型可以根据任务需求动态调用部分算力资源,不用每次把整个模型都跑满,避免了大量无效计算。
再加上训练和推理环节针对国产硬件做了深度优化,整体效率提升非常明显。
所以与其说这是在打价格战,不如说这是技术进步带来的成本结构变了。
![]()
在官方技术报告中,有这样一句话:“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。”
这种事放在以前,是很难想象的。一个万亿参数级别的顶级大模型,头一回在全球范围内彻底跑通了英伟达CUDA之外的生态路径。
![]()
还有一个细节值得注意。V4发布前,DeepSeek没有像往常那样提前把模型给到英伟达和AMD做适配,而是打破惯例,让华为提前好几周就开始做软件优化。
态度的转变,已经很明显了。
不过这也不是临时起意。
DeepSeek V3.1发布的时候,特意支持了一个叫UE8M0 FP8的数据格式,官方当时明确说了,这个格式是为“即将发布的下一代国产芯片”准备的。
换句话说,DeepSeek至少在一年前就开始为这次转向铺路了。
![]()
“DeepSeek时刻”,又一次出现了
2025年初,DeepSeek R1模型发布,整个行业都被震了一下。
一家中国AI初创公司以极低成本,实现了比肩美国顶尖大模型性能的事实,从而彻底颠覆了“AI研发必须烧钱”的行业共识的时刻。
因此,全球科技与金融界也将此命名为“DeepSeek时刻”。
而这次,DeepSeek搭上了华为芯片,靠架构优化在国产算力平台上跑出了亮眼的性能。
从某种意义上说,这或许可以看作是又一个“DeepSeek时刻”。
![]()
DeepSeek为什么会投入时间研发适配华为芯片的架构?原因不难理解。
首先是美国对我国高端GPU的出口管制越来越紧。
A100和H100基本上断供了,英伟达专门给中国市场定制的“阉割版”H800,后来也一步步被收紧。
去年年中,H20芯片在中国内地一度供应短缺,直接拖慢了DeepSeek R2模型的开发进度。
对一家做AI大模型的公司来说,最要命的不是对手有多强,而是你根本不知道手上的芯片供应能撑到哪一天。供应链就是命脉,命脉攥在别人手里,这就不是技术问题了,是生存问题。
所以DeepSeek转向华为,与其说是一次主动的战略选择,不如说是一道必须做的生存题。英伟达的芯片再强,当它变成一把悬在头顶的剑时,性能再好也不如供应稳定来得踏实。
其次,华为在芯片这个领域确实扎得够深。
这次跟DeepSeek V4搭档的,是昇腾950PR。搭载这款芯片的Atlas 350加速卡,单卡FP4算力达到1.56P,是英伟达H20的2.87倍。
而且,这是目前国内唯一支持FP4精度的推理产品。
因为受到制裁,华为拿不到最先进的芯片制程工艺,单颗昇腾芯片的算力确实还追不上英伟达的旗舰产品。
但华为换了一个打法,走的是“超节点加集群”的路线,把多颗芯片高效地连在一起,用系统集成的力量来弥补单颗芯片的差距。
简单说就是,单个打不过,那就群殴。
![]()
市场反应也很能说明问题。
IDC数据显示,2025年中国市场AI加速卡总出货量大概400万张。英伟达虽然还排在第一,大概220万张,但市场份额已经从制裁前的95%跌到了55%。
三年时间,丢了40个百分点。
国产AI加速卡出货165万张,市场份额约41%,其中华为一家就占了约81.2万张,拿下国产阵营的半壁江山,整体市场份额大概20%。
格局已经变了。英伟达不再是唯一的选择,华为正在逐渐变成主选项之一。
![]()
格局变了,AI的故事才刚刚开始
黄仁勋在行业里一向说话很直,他对DeepSeek和华为态度的变化,很能说明问题。
去年年中他访华的时候,在媒体会上公开夸DeepSeek,说R1这个架构很创新、很革命性,是世界上第一个开源的推理模型,每个token的算力消耗比其他模型低很多。
当时被问到华为芯片能不能替代英伟达,他也坦率承认:“这只是时间问题。我们做了三十年,他们才做了几年,但华为已经能够证明自己有多强大了。”
到了去年底,他的调子变了,开始带有警告的意味。
他公开说,“中国市场的地位无可替代,我们不应该把整个市场拱手让人,应该主动参与竞争。”但事情或许已经不是他能左右的了。
等到V4发布前不到十天,他的表态逐渐转向了悲观。
他直言,如果顶尖AI模型被优先优化用于华为芯片而不是英伟达平台,“对我们而言将是灾难性的”。
![]()
这句话里,大概已经透露出他看到了某种正在靠近的未来。
DeepSeek跟华为这次的联手,还释放了一个更深层的信号。未来的AI竞争,正在从企业跟企业之间的比拼,变成生态跟生态之间的角力。
这次事件说明,当外部压力足够大的时候,一个市场完全可以孵化出一整套不依赖西方技术的算力闭环,从芯片测试到模型部署,从底层代码到商业应用,整个链条正在快速闭合。
这也能解释为什么华盛顿那边反应那么激烈。
V4发布当天,美国国务院就给全球使馆发了外交电报,指控DeepSeek等中国AI公司涉嫌“窃取知识产权”和“模型蒸馏”。
当一个市场开始用自己的腿走路时,原来制定规则的一方会突然发现,手里的牌好像没那么多了。
而当中国用自己的芯片跑起了自己的顶尖模型,这场AI竞赛的下半场,或许才算真正开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.