![]()
作者 | 常棣
编辑 | 葛覃
在很长一段时间里,AI行业对昇腾芯片的评价呈现出一种微妙的撕裂感。
一方面,是算力短缺背景下“一卡难求”的现实需求,昇腾长期处于缺货状态,即便是华为内部也很难获得持续供给;另一方面,是开发者社区里挥之不去的抱怨,抱怨昇腾的使用体验不够友好,其中,很大一部分源自于CANN。
“为什么不直接兼容CUDA”“为什么要造一个自己的CANN?”“迁移成本太高了”。在英伟达CUDA生态如日中天的时代,任何另起炉灶的尝试,都显得不合时宜。
华为不能,也不想选择这条路。这个决定甚至可以追溯到2018年。
八年之前,从零做起是别人眼里的错误路线,华为明明可以做一套CUDA兼容层,让开发者无缝切换,偏偏选择了自己从底层构建一套CANN软件栈,死磕原生生态。
2025年8月,CANN正式宣布开源,十个月后的现在,昇腾生态已与Triton、PyTorch、vLLM等90多个主流开源社区实现了深度对接,对DeepSeek系列、Qwen系列等70+全球与中国主流大模型实现“发布即适配”与全链路优化,更重要的是,开发者真切地体会到,昇腾一点点变得好用。
从质疑CANN到理解CANN,昇腾走入了一个极具戏剧性的“质疑-理解-成为”之路。
华为,为什么非要“自讨苦吃”
把时钟拨回八年前,当华为宣布构建昇腾CANN异构计算架构,并坚持不通过“翻译层”去简单兼容CUDA时,业界的反应大多是困惑,甚至是嘲讽。
在当时的语境下,最“聪明”的做法似乎是做一个完美的CUDA转换器。毕竟,全球数百万开发者已经习惯了CUDA的编程范式,海量的算法库、模型权重都构建在这个地基之上。对于一家商业公司而言,顺应潮流比逆流而上更符合常识。
![]()
“大家起初很不理解,觉得华为这是在重复造轮子。明明有一条现成的路可以走,为什么非要自己去铺一条新的?”华为CANN生态负责人回忆道。
这种质疑的背后,是对英伟达生态壁垒的恐惧,开发者担心的是,一旦选择了昇腾,就意味着要放弃过去十年积累的代码资产,意味着要面对一个可能随时断供、文档不全、社区冷清的孤岛。
更深层的焦虑在于,人们怀疑华为是否有能力构建一个真正的“算力第二极”。除了英伟达,全球其他厂商都没有实现类似的壮举,CANN被视作一个封闭黑盒式的驱动层,它像是一个“麻花团”,代码耦合严重,升级牵一发而动全身,开发者在里面摸索,常常遇到算子不支持、性能调优难等难题。
有开发者直言,“早期的CANN,更像是一个为了卖硬件而附赠的软件,而不是一个独立的、有生命力的开发平台。大家质疑的不是华为的技术实力,而是这种‘封闭+私有’的路径,在开源主导的AI时代,真的能走通吗?”
这种质疑,在AI时代达到了顶峰,随着大模型算力市场持续爆发,昇腾虽然在国内市场份额节节攀升,但在开发者心智中,它依然是一个备选方案,一个在买不到英伟达时的“无奈之举”。
“如果英伟达明天就放开供货,你还会用昇腾吗?”这个问题,像一根刺,扎在每一个昇腾布道者的心里,而要拔掉这根刺,华为需要的不是更多的话术,而是一次彻底的、伤筋动骨的自我革命。
拆解“麻花团”,一场应有的架构重构
转折发生在2025年下半年。当所有人都以为华为会继续在硬件堆料上发力时,华为轮值董事长徐直军亲自拍板并明确,华为AI战略的核心是算力,并坚持昇腾硬件变现。
他同时表示,华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发,加速广大开发者的创新步伐,让昇腾更好用、更易用。
“以前的CANN像一个麻花团,所有东西都拧在一起。”上述负责人描述道,“你想升级一个算子,可能得重装整个驱动;你想用一个第三方库,发现接口完全不兼容。这种体验,在开源社区是活不下去的。”
他坦承,昇腾950之前的芯片架构有明显的历史包袱,算力配比、编程灵活性、Cache line的灵活度,都没有达到应有水平,在开源同期,昇腾相关团队做了一次大规模的芯片架构升级,支持SIMT、细粒度访存、FP8/FP4精度,痛下决心解决生态问题。
在算力卡稀缺的情况下,华为还在社区提供了4000张卡的免费算力资源,2000万元的专项激励基金,其中有不少的新款950PR芯片。
“一卡难求是现实,不敢用更是痛点。通过免费提供算力,华为降低了开发者的试错门槛。你不需要先花几十万买卡,就可以在线上手体验CANN的新特性,这种先尝后买的策略,极大地缓解了开发者的畏难情绪。”该负责人说道。
随着CANN的深度解耦和开源,越来越多的开发者从“旁观者”变成了“参与者”。“我们发现,他们不再仅仅是将代码从CUDA迁移到CANN,很多头部互联网公司和AI初创企业,开始在昇腾上原生开发他们的原生应用,在昇腾的超节点架构上,运行大规模Agent的成本和效率,具有独特的优势。”上述负责人表示。
昇腾生态走到这一刻,外界的质疑变成了理解。
八年之后,他们都想成为“CANN”
对于华为而言,做CANN,不是为了搞封闭,而是为了在底层构建一个开源开放的计算底座,只有掌握了底层的虚拟指令集和编译器,才能在与全球开源社区的对话中,拥有平等的话语权。
对于更多的模型厂商和芯片厂商而言,英伟达的CUDA生态同样是绕不开的壁垒,早期这一事项并不是企业的优先级,而如今随着大模型的重要性水涨船高,他们都想和华为一样,寻求突破CUDA的方法。
谷歌第八代TPU实现了规模化部署,Anthropic已大规模采用,旋即谷歌与Meta联合推进TorchTPU,让PyTorch原生支持TPU,无需CUDA即可运行;微软Maia系列AI芯片,配套Triton开源编译器,替代CUDA内核开发,支持跨芯片(英伟达/AMD/昇腾/Maia)编译,国内厂商也在用VLLM屏蔽CUDA的底层差异,包括DeepSeek、GLM等。
![]()
尤其在开源之后,CANN生态的变化超出了预期。30多家企业在社区上做自己的开源项目;中石油、南方电网这些完全不在预期名单里的行业用户,自发基于开源代码做了落地开发;AtomGit社区上的CANN代码库,在不到4个月内成为活跃度名列前茅的基础软件项目。
2026年掀起的Agentic AI的浪潮,再一次证明算力不再是简单的硬件堆砌,智能体需要一个自我运转的生态飞轮,算力降低门槛——开发者涌入——功能不断完善——更多客户采用——反向牵引更多开发者参与。
某种程度上,华为昇腾生态更大的意义是,证明了CUDA并不是牢不可破,通过CANN的开放与进化,向业界宣告,在核心技术领域,没有捷径可走,唯有扎根底层,拥抱开源,才能在未来的竞争中,掌握真正的“确定性”。
“开源取得了我们不知道的、从来没有想过的效果。”该负责人表示,CANN开源系统的昇腾算子编程语言体系,全面兼容业界主流的算子编程框架,包括Ascend C、PyPTO、Triton等多种编程范式,并配套完备调试调优工具链,无论是追求极致性能的资深专家,还是希望快速上手的新开发者,都可以找到最适合自己的开发路径。
从“质疑”华为为何不走捷径,到“理解”华为重构底座的用意,再到厂商都想“成为”一个类似CANN的新生态,这条路,华为走了八年。而在未来,在没有CUDA的地图,CANN就是中国AI开发者们共同绘制的新航线。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.