质疑、理解、成为，昇腾CANN生态的“反直觉”突围|英伟达|cuda|知名企业

质疑、理解、成为，昇腾CANN生态的“反直觉”突围

2026-05-13 03:25:20　来源: 我不叫阿哏

广东举报

分享至

作者 | 常棣

编辑 | 葛覃

在很长一段时间里，AI行业对昇腾芯片的评价呈现出一种微妙的撕裂感。

一方面，是算力短缺背景下“一卡难求”的现实需求，昇腾长期处于缺货状态，即便是华为内部也很难获得持续供给；另一方面，是开发者社区里挥之不去的抱怨，抱怨昇腾的使用体验不够友好，其中，很大一部分源自于CANN。

“为什么不直接兼容CUDA”“为什么要造一个自己的CANN？”“迁移成本太高了”。在英伟达CUDA生态如日中天的时代，任何另起炉灶的尝试，都显得不合时宜。

华为不能，也不想选择这条路。这个决定甚至可以追溯到2018年。

八年之前，从零做起是别人眼里的错误路线，华为明明可以做一套CUDA兼容层，让开发者无缝切换，偏偏选择了自己从底层构建一套CANN软件栈，死磕原生生态。

2025年8月，CANN正式宣布开源，十个月后的现在，昇腾生态已与Triton、PyTorch、vLLM等90多个主流开源社区实现了深度对接，对DeepSeek系列、Qwen系列等70+全球与中国主流大模型实现“发布即适配”与全链路优化，更重要的是，开发者真切地体会到，昇腾一点点变得好用。

从质疑CANN到理解CANN，昇腾走入了一个极具戏剧性的“质疑-理解-成为”之路。

华为，为什么非要“自讨苦吃”

把时钟拨回八年前，当华为宣布构建昇腾CANN异构计算架构，并坚持不通过“翻译层”去简单兼容CUDA时，业界的反应大多是困惑，甚至是嘲讽。

在当时的语境下，最“聪明”的做法似乎是做一个完美的CUDA转换器。毕竟，全球数百万开发者已经习惯了CUDA的编程范式，海量的算法库、模型权重都构建在这个地基之上。对于一家商业公司而言，顺应潮流比逆流而上更符合常识。

“大家起初很不理解，觉得华为这是在重复造轮子。明明有一条现成的路可以走，为什么非要自己去铺一条新的？”华为CANN生态负责人回忆道。

这种质疑的背后，是对英伟达生态壁垒的恐惧，开发者担心的是，一旦选择了昇腾，就意味着要放弃过去十年积累的代码资产，意味着要面对一个可能随时断供、文档不全、社区冷清的孤岛。

更深层的焦虑在于，人们怀疑华为是否有能力构建一个真正的“算力第二极”。除了英伟达，全球其他厂商都没有实现类似的壮举，CANN被视作一个封闭黑盒式的驱动层，它像是一个“麻花团”，代码耦合严重，升级牵一发而动全身，开发者在里面摸索，常常遇到算子不支持、性能调优难等难题。

有开发者直言，“早期的CANN，更像是一个为了卖硬件而附赠的软件，而不是一个独立的、有生命力的开发平台。大家质疑的不是华为的技术实力，而是这种‘封闭+私有’的路径，在开源主导的AI时代，真的能走通吗？”

这种质疑，在AI时代达到了顶峰，随着大模型算力市场持续爆发，昇腾虽然在国内市场份额节节攀升，但在开发者心智中，它依然是一个备选方案，一个在买不到英伟达时的“无奈之举”。

“如果英伟达明天就放开供货，你还会用昇腾吗？”这个问题，像一根刺，扎在每一个昇腾布道者的心里，而要拔掉这根刺，华为需要的不是更多的话术，而是一次彻底的、伤筋动骨的自我革命。

拆解“麻花团”，一场应有的架构重构

转折发生在2025年下半年。当所有人都以为华为会继续在硬件堆料上发力时，华为轮值董事长徐直军亲自拍板并明确，华为AI战略的核心是算力，并坚持昇腾硬件变现。

他同时表示，华为昇腾硬件使能CANN全面开源开放，Mind系列应用使能套件及工具链全面开源，支持用户自主的深度挖潜和自定义开发，加速广大开发者的创新步伐，让昇腾更好用、更易用。

“以前的CANN像一个麻花团，所有东西都拧在一起。”上述负责人描述道，“你想升级一个算子，可能得重装整个驱动；你想用一个第三方库，发现接口完全不兼容。这种体验，在开源社区是活不下去的。”

他坦承，昇腾950之前的芯片架构有明显的历史包袱，算力配比、编程灵活性、Cache line的灵活度，都没有达到应有水平，在开源同期，昇腾相关团队做了一次大规模的芯片架构升级，支持SIMT、细粒度访存、FP8/FP4精度，痛下决心解决生态问题。

在算力卡稀缺的情况下，华为还在社区提供了4000张卡的免费算力资源，2000万元的专项激励基金，其中有不少的新款950PR芯片。

“一卡难求是现实，不敢用更是痛点。通过免费提供算力，华为降低了开发者的试错门槛。你不需要先花几十万买卡，就可以在线上手体验CANN的新特性，这种先尝后买的策略，极大地缓解了开发者的畏难情绪。”该负责人说道。

随着CANN的深度解耦和开源，越来越多的开发者从“旁观者”变成了“参与者”。“我们发现，他们不再仅仅是将代码从CUDA迁移到CANN，很多头部互联网公司和AI初创企业，开始在昇腾上原生开发他们的原生应用，在昇腾的超节点架构上，运行大规模Agent的成本和效率，具有独特的优势。”上述负责人表示。

昇腾生态走到这一刻，外界的质疑变成了理解。

八年之后，他们都想成为“CANN”

对于华为而言，做CANN，不是为了搞封闭，而是为了在底层构建一个开源开放的计算底座，只有掌握了底层的虚拟指令集和编译器，才能在与全球开源社区的对话中，拥有平等的话语权。

对于更多的模型厂商和芯片厂商而言，英伟达的CUDA生态同样是绕不开的壁垒，早期这一事项并不是企业的优先级，而如今随着大模型的重要性水涨船高，他们都想和华为一样，寻求突破CUDA的方法。

谷歌第八代TPU实现了规模化部署，Anthropic已大规模采用，旋即谷歌与Meta联合推进TorchTPU，让PyTorch原生支持TPU，无需CUDA即可运行；微软Maia系列AI芯片，配套Triton开源编译器，替代CUDA内核开发，支持跨芯片（英伟达/AMD/昇腾/Maia）编译，国内厂商也在用VLLM屏蔽CUDA的底层差异，包括DeepSeek、GLM等。

尤其在开源之后，CANN生态的变化超出了预期。30多家企业在社区上做自己的开源项目；中石油、南方电网这些完全不在预期名单里的行业用户，自发基于开源代码做了落地开发；AtomGit社区上的CANN代码库，在不到4个月内成为活跃度名列前茅的基础软件项目。

2026年掀起的Agentic AI的浪潮，再一次证明算力不再是简单的硬件堆砌，智能体需要一个自我运转的生态飞轮，算力降低门槛——开发者涌入——功能不断完善——更多客户采用——反向牵引更多开发者参与。

某种程度上，华为昇腾生态更大的意义是，证明了CUDA并不是牢不可破，通过CANN的开放与进化，向业界宣告，在核心技术领域，没有捷径可走，唯有扎根底层，拥抱开源，才能在未来的竞争中，掌握真正的“确定性”。

“开源取得了我们不知道的、从来没有想过的效果。”该负责人表示，CANN开源系统的昇腾算子编程语言体系，全面兼容业界主流的算子编程框架，包括Ascend C、PyPTO、Triton等多种编程范式，并配套完备调试调优工具链，无论是追求极致性能的资深专家，还是希望快速上手的新开发者，都可以找到最适合自己的开发路径。

从“质疑”华为为何不走捷径，到“理解”华为重构底座的用意，再到厂商都想“成为”一个类似CANN的新生态，这条路，华为走了八年。而在未来，在没有CUDA的地图，CANN就是中国AI开发者们共同绘制的新航线。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.