昇腾管推理、鲲鹏管Agent，Agentic AI让CPU重回舞台中央|算法|调用|算子|编程|上下文|agent

昇腾管推理、鲲鹏管Agent，Agentic AI让CPU重回舞台中央

分享至

八年前Meta就有万亿参数模型了，但今天的AI算力竞赛反而让一家公司把CPU重新摆上主桌。

DeepSeek-V4模型首发适配昇腾芯片，这件事被行业视为中国AI生态发展的一个重要节点。通过芯模协同，DeepSeek与昇腾实现了昇腾超节点全系列产品对DeepSeek-V4系列模型的支持。背后的信号很明确：中国大模型产业正在从过去高度依赖海外GPU与CUDA生态，逐步走向由国产芯片、基础软件、编程框架、算子能力和系统架构共同支撑的新阶段。

在今年的鲲鹏昇腾开发者大会2026上，中国计算产业的几个变化变得更加清晰。第一，中国大模型能力正在接近全球顶级闭源模型水平；第二，中国模型的Token消耗量已进入全球前列；第三，国产大模型与国产芯片之间的协同，开始从"能跑起来"进入"跑得好、跑得稳、跑得经济"的深水区。

在这个过程中，昇腾与鲲鹏分别承担了不同角色。昇腾更偏向智能计算底座，重点解决大模型训练、推理、KV Cache、长上下文、AI推理吞吐和开发者生态等问题。鲲鹏则承担通用计算底座角色，重点支撑Agent编排、工具调用、沙箱执行、记忆检索、安全隔离和企业级IT基础设施。简单说，昇腾解决的是AI算力问题，鲲鹏解决的是Agentic AI时代系统运行和工程承载问题。这种分工意味着，当AI从"模型回答"进化到"自主执行任务"，CPU在工程层面的价值被重新激活。

Agentic AI正在对算力基础设施提出新的要求。与传统大模型推理不同，Agent工作负载通常包含多轮规划、工具调用、记忆检索、上下文管理、多Agent协同等复杂过程。这类负载会带来超大KV Cache、超长上下文、低时延响应和碎片化调度需求。传统以单卡、单服务器或普通集群为核心的算力架构，已经很难完全适配这一新型负载。

昇腾超节点的核心思路，是通过芯片架构、互联架构和系统架构的协同创新，让大规模AI集群像"一台计算机"一样工作。在芯片层面，昇腾持续推进架构创新。昇腾芯片将支持FP8、MXFP8、MXFP4等低数值精度数据格式，以提升训练效率和推理吞吐。同时通过SIMD与SIMT双编程模型兼容，在高密度计算与灵活调度之间取得平衡。这一方向也被视为AI芯片架构演进的重要趋势。

在互联层面，昇腾采用灵衢互联，实现总线级全连接、无主从、平等互联，使NPU与NPU、NPU与CPU之间可以直接通信。灵衢互联可实现单跳200ns通信能力，面向Agentic AI中大量碎片化调度场景，减少阻塞和等待。在系统层面，昇腾超节点采用Clos与Mesh混合拓扑，强调无损、无阻塞和动态负载均衡，使超节点更接近一个统一计算系统，而不是传统松散集群。

对于超节点架构，华为特别强调了一个判断标准：是否实现全域内存统一编址和内存语义。在传统集群中，不同节点之间通常需要通过消息传递、路由和数据拷贝完成通信，这会带来额外延迟和资源开销。昇腾超节点希望通过全局单一虚拟地址空间，让NPU和CPU可以直接以虚拟地址访问任意位置的数据，从而实现无需改代码、无需路由、无需拷贝的load/store访问。

这对大模型推理尤其关键。随着上下文长度持续扩大，KV Cache已经成为推理系统的重要瓶颈。华为认为，统一内存编址可以实现KV Cache全局共享，使超长上下文更容易扩展，也让每一个Token的生成更高效、更经济。在内存池化方面，昇腾通过HBM与DDR分层池化能力，实现"以查代算"和KV Cache全局共享。资料显示，在LLM、推荐、Engram等场景中，查询时延可降低3至4倍，训练和推理吞吐相较传统集群提升3至4倍。

在最新的950代际产品中，昇腾在芯片架构层面加入对SIMT的支持，并首创SIMD与SIMT混合编程能力。这使开发者可以根据不同计算阶段的特点，灵活选择合适的编程范式。在同一个算子中，规则计算部分可以采用SIMD，以发挥高吞吐优势；不规则控制部分则可以利用SIMT的灵活性，从而实现整体效率与性能的最优。

例如，在MoE init routing算子中，规则的连续数据搬运与计算部分可以使用SIMD编写，而不规则的离散数据搬出部分则可以采用SIMT编写，从而获得更高开发效率和更好整体性能。这一能力对于大模型时代大量不规则计算、稀疏调度和复杂路由场景具有现实意义。

除了计算算子，昇腾也在提升通信算子编程的易用性。在大规模训练和推理中，通信常常成为性能瓶颈。为此，昇腾试图打破计算和通信之间的边界，让通信编程像访存读写一样简单。通过SHMEM编程接口，昇腾将传统面向通信的编程方式，转变为面向访存读写的方式。在统一编址下，跨设备访问可以像操作本地内存一样直接，只需一行代码即可直达底层。同时，凭借AIcore直驱技术，昇腾绕过传统CPU调度，使下发时延优化30倍。昇腾还推出了通信与计算融合的CATLASS模板库，屏蔽复杂拓扑差异，帮助开发者快速实现计算与通信深度并行开发。以常见融合算子为例，相关能力可使开发周期缩短50%，性能提升30%。

除了底层硬件和系统架构，昇腾也在围绕开发者易用性进行系统性升级。过去两年，昇腾投入大量资源优化开发体验，重点回应开发者在底层能力开放、编程方式友好度、主流社区兼容、文档资料完备性等方面的诉求。围绕这些反馈，昇腾主要从三个方向推进易用性提升：CANN开源开放与分层解耦、深度支持第三方主流开源技术生态，以及Mind系列软件架构持续演进升级。

作为昇腾软件底座和生态核心锚点，CANN是昇腾提升易用性的关键。昇腾已在去年底完成CANN分层解耦开源。通过增强对第三方生态的支持，CANN开放了运行时、算子编译等不同层级接口，支持算子库、通信库等组件独立升级。目前，昇腾已开源50多个源码仓，使开发者在生态接入、分层调用、组件升级和源码创新等方面拥有更高灵活性。这一变化意味着，开发者不仅可以基于昇腾平台做应用开发，也可以更深入地参与底层能力优化，围绕算子、通信、编译和运行时进行性能调优。

在算子编程方面，开发者最关注的是开发效率和运行性能。不同类型的开发者，对编程方式也有不同需求。对于追求极致性能的算子开发工程师，昇腾提供AscendC、CATLASS模板库等编程方式，支持开发者对计算、访存、流水等关键环节进行细粒度控制，充分释放芯片性能。同时，昇腾也将高性能能力沉淀为可复用模板，以提升开发效率。

对于更注重快速创新和算法尝试的AI算法工程师，昇腾支持TileLang、Triton等主流Tile编程生态，使开发者能够以更接近算法表达的方式描述分块计算和数据流。此外，昇腾还推出PyPTO，提供面向Tensor的编程能力，帮助开发者更高效地完成算法创新。随着Python成为AI开发的主流语言，昇腾也在全面拥抱Python编程生态，进一步降低开发门槛、提升开发效率。其中，PyAsc基于AscendC增加Python编程接口，使开发者能够以更友好的方式表达底层并行和访存能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.