八年前Meta就有万亿参数模型了,但今天的AI算力竞赛反而让一家公司把CPU重新摆上主桌。
DeepSeek-V4模型首发适配昇腾芯片,这件事被行业视为中国AI生态发展的一个重要节点。通过芯模协同,DeepSeek与昇腾实现了昇腾超节点全系列产品对DeepSeek-V4系列模型的支持。背后的信号很明确:中国大模型产业正在从过去高度依赖海外GPU与CUDA生态,逐步走向由国产芯片、基础软件、编程框架、算子能力和系统架构共同支撑的新阶段。
![]()
在今年的鲲鹏昇腾开发者大会2026上,中国计算产业的几个变化变得更加清晰。第一,中国大模型能力正在接近全球顶级闭源模型水平;第二,中国模型的Token消耗量已进入全球前列;第三,国产大模型与国产芯片之间的协同,开始从"能跑起来"进入"跑得好、跑得稳、跑得经济"的深水区。
在这个过程中,昇腾与鲲鹏分别承担了不同角色。昇腾更偏向智能计算底座,重点解决大模型训练、推理、KV Cache、长上下文、AI推理吞吐和开发者生态等问题。鲲鹏则承担通用计算底座角色,重点支撑Agent编排、工具调用、沙箱执行、记忆检索、安全隔离和企业级IT基础设施。简单说,昇腾解决的是AI算力问题,鲲鹏解决的是Agentic AI时代系统运行和工程承载问题。这种分工意味着,当AI从"模型回答"进化到"自主执行任务",CPU在工程层面的价值被重新激活。
Agentic AI正在对算力基础设施提出新的要求。与传统大模型推理不同,Agent工作负载通常包含多轮规划、工具调用、记忆检索、上下文管理、多Agent协同等复杂过程。这类负载会带来超大KV Cache、超长上下文、低时延响应和碎片化调度需求。传统以单卡、单服务器或普通集群为核心的算力架构,已经很难完全适配这一新型负载。
昇腾超节点的核心思路,是通过芯片架构、互联架构和系统架构的协同创新,让大规模AI集群像"一台计算机"一样工作。在芯片层面,昇腾持续推进架构创新。昇腾芯片将支持FP8、MXFP8、MXFP4等低数值精度数据格式,以提升训练效率和推理吞吐。同时通过SIMD与SIMT双编程模型兼容,在高密度计算与灵活调度之间取得平衡。这一方向也被视为AI芯片架构演进的重要趋势。
在互联层面,昇腾采用灵衢互联,实现总线级全连接、无主从、平等互联,使NPU与NPU、NPU与CPU之间可以直接通信。灵衢互联可实现单跳200ns通信能力,面向Agentic AI中大量碎片化调度场景,减少阻塞和等待。在系统层面,昇腾超节点采用Clos与Mesh混合拓扑,强调无损、无阻塞和动态负载均衡,使超节点更接近一个统一计算系统,而不是传统松散集群。
对于超节点架构,华为特别强调了一个判断标准:是否实现全域内存统一编址和内存语义。在传统集群中,不同节点之间通常需要通过消息传递、路由和数据拷贝完成通信,这会带来额外延迟和资源开销。昇腾超节点希望通过全局单一虚拟地址空间,让NPU和CPU可以直接以虚拟地址访问任意位置的数据,从而实现无需改代码、无需路由、无需拷贝的load/store访问。
这对大模型推理尤其关键。随着上下文长度持续扩大,KV Cache已经成为推理系统的重要瓶颈。华为认为,统一内存编址可以实现KV Cache全局共享,使超长上下文更容易扩展,也让每一个Token的生成更高效、更经济。在内存池化方面,昇腾通过HBM与DDR分层池化能力,实现"以查代算"和KV Cache全局共享。资料显示,在LLM、推荐、Engram等场景中,查询时延可降低3至4倍,训练和推理吞吐相较传统集群提升3至4倍。
在最新的950代际产品中,昇腾在芯片架构层面加入对SIMT的支持,并首创SIMD与SIMT混合编程能力。这使开发者可以根据不同计算阶段的特点,灵活选择合适的编程范式。在同一个算子中,规则计算部分可以采用SIMD,以发挥高吞吐优势;不规则控制部分则可以利用SIMT的灵活性,从而实现整体效率与性能的最优。
例如,在MoE init routing算子中,规则的连续数据搬运与计算部分可以使用SIMD编写,而不规则的离散数据搬出部分则可以采用SIMT编写,从而获得更高开发效率和更好整体性能。这一能力对于大模型时代大量不规则计算、稀疏调度和复杂路由场景具有现实意义。
除了计算算子,昇腾也在提升通信算子编程的易用性。在大规模训练和推理中,通信常常成为性能瓶颈。为此,昇腾试图打破计算和通信之间的边界,让通信编程像访存读写一样简单。通过SHMEM编程接口,昇腾将传统面向通信的编程方式,转变为面向访存读写的方式。在统一编址下,跨设备访问可以像操作本地内存一样直接,只需一行代码即可直达底层。同时,凭借AIcore直驱技术,昇腾绕过传统CPU调度,使下发时延优化30倍。昇腾还推出了通信与计算融合的CATLASS模板库,屏蔽复杂拓扑差异,帮助开发者快速实现计算与通信深度并行开发。以常见融合算子为例,相关能力可使开发周期缩短50%,性能提升30%。
除了底层硬件和系统架构,昇腾也在围绕开发者易用性进行系统性升级。过去两年,昇腾投入大量资源优化开发体验,重点回应开发者在底层能力开放、编程方式友好度、主流社区兼容、文档资料完备性等方面的诉求。围绕这些反馈,昇腾主要从三个方向推进易用性提升:CANN开源开放与分层解耦、深度支持第三方主流开源技术生态,以及Mind系列软件架构持续演进升级。
作为昇腾软件底座和生态核心锚点,CANN是昇腾提升易用性的关键。昇腾已在去年底完成CANN分层解耦开源。通过增强对第三方生态的支持,CANN开放了运行时、算子编译等不同层级接口,支持算子库、通信库等组件独立升级。目前,昇腾已开源50多个源码仓,使开发者在生态接入、分层调用、组件升级和源码创新等方面拥有更高灵活性。这一变化意味着,开发者不仅可以基于昇腾平台做应用开发,也可以更深入地参与底层能力优化,围绕算子、通信、编译和运行时进行性能调优。
在算子编程方面,开发者最关注的是开发效率和运行性能。不同类型的开发者,对编程方式也有不同需求。对于追求极致性能的算子开发工程师,昇腾提供AscendC、CATLASS模板库等编程方式,支持开发者对计算、访存、流水等关键环节进行细粒度控制,充分释放芯片性能。同时,昇腾也将高性能能力沉淀为可复用模板,以提升开发效率。
对于更注重快速创新和算法尝试的AI算法工程师,昇腾支持TileLang、Triton等主流Tile编程生态,使开发者能够以更接近算法表达的方式描述分块计算和数据流。此外,昇腾还推出PyPTO,提供面向Tensor的编程能力,帮助开发者更高效地完成算法创新。随着Python成为AI开发的主流语言,昇腾也在全面拥抱Python编程生态,进一步降低开发门槛、提升开发效率。其中,PyAsc基于AscendC增加Python编程接口,使开发者能够以更友好的方式表达底层并行和访存能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.