MoE大模型迎来“原生战友”：昇腾超节点重构AI基础设施|路由|时延|通信

MoE大模型迎来“原生战友”：昇腾超节点重构AI基础设施

2025-05-18 09:21:22　来源: Alter聊科技

浙江举报

分享至

对AI比较关注的话，大概率会听到下面两个“时髦”的概念：

一个是Scaling Law，通常被翻译为“规模定律”，得出了一个通俗易懂的结论——“模型越大，性能越好。”

另一个是MoE架构，中文名称是混合专家模型，相对应的概念是稠密（Dense）模型。如果说稠密模型一个“通才”，由一个“专家”处理多种不同的任务，MoE则是将任务分门别类，分给多个“专家”进行解决。

Scaling Law和MoE的出镜率越来越高，意味着大模型的参数量将越来越大，同时开始提升“能力密度”。直接相关的就是大模型的训练和推理，正在从粗放烧钱到精细调优，从堆算力转向算力利用率最大化。

站在大模型工程化创新的十字路口，恰逢鲲鹏昇腾开发者大会2025前夕，“昇腾超节点”迅速成为技术圈的热门话题。

由此产生的一个问题是：MoE架构大模型的训练都遇到了哪些挑战，昇腾给出了什么新解法？

01 MoE架构成主流，大模型训练遇到“三座大山”

Mixtral、DeepSeek R1、Llama 4、Qwen3……近一年现象级刷屏的大模型，清一色地采用了MoE架构。

原因离不开MoE的架构创新。

每个专家负责任务的一部分，极大地提升了模型的可扩展性；每个专家都能针对整个问题的特定方面进行微调，进一步提升了模型的专业化和准确性；每次请求只激活部分专家，显著减少了每次推理的计算负荷……

当MoE架构演变为大模型的主流范式，由服务器、存储、网络等设备堆叠而成的传统集群，在大模型训练上遇到了“三座大山”。

一是资源利用率低。

MoE架构对负载均衡非常敏感，路由机制如果分布不均，某些专家会频繁被调用，而其他专家几乎闲置。

传统AI集群部署MoE模型时，每台服务器只部署部分专家，缺乏全局调度能力。由于路由机制无法感知底层资源状态，可能导致部分服务器的使用率大于90%，部分服务器几乎不参与计算。结果就是，GPU的利用率远低于理论峰值，直接拉长了模型的训练周期，提升了能耗与成本。

二是系统稳定性差。

MoE架构依赖动态路由+专家选择，对系统的持续稳定性要求远高于传统Dense模型，让工程的复杂度陡升。

在传统AI集群上训练MoE模型，任何一个节点的故障，都可能导致整个训练任务失败。比如某MoE大模型的训练过程，由于集群规模超过1000张加速卡，平均无故障运行时间不足6小时，每24小时需重新调度两次以上，单次训练需要数天乃至数周，运维人员长期处于高强度监控状态。

三是通信带宽瓶颈。

MoE架构的“小专家”，理论上可以节省计算资源，前提是能灵活高效地选择和调度，对通信带宽提出了极高要求。

在传统AI集群中，GPU之间通过PCle或InfiniBand通信，激活路由涉及大量跨卡、跨节点访问，导致在All-to-All通信模式下，MoE架构的通信压力远大于Dense架构，训练速度甚至比Dense更慢。当GPU资源被通信“拖死”，哪怕是业界主流的高带宽GPU，训练效率也难以线性提升。

以上还只是大模型训练时的常见痛点。

倘若推理阶段依然部署在传统AI集群上，在不支持高频动态路由和异构推理请求的环境下，用户请求要触发不同专家组合，再加上请求跳转至跨节点专家时时延大，有些请求的延迟高达200ms以上。

训练系统的可用性，决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群，已经不符合大模型的创新趋势。

02 更亲和MoE架构，“昇腾超节点”有何不同？

传统AI集群的本质是做加法，即通过硬件堆叠的方式提升算力，在大模型早期确实奏效，短板也很明显。

被技术圈追捧的昇腾超节点，可以看作是算力集群走向“乘法”式增长的标志，不仅仅是计算，进一步结合了存储、通信等能力，计算性能倍增的同时，实现了时延、吞吐、负载均衡等能力的整体跃迁。

用一句话总结的话，昇腾超节点实现了让384张卡像一台计算机一样工作，更亲和MoE架构。

根源是昇腾的四个针对性创新。

第一个是自研高速互联协议，能够将成百上千个NPU以TB级带宽超高速互联，大幅提升了并行计算的通信效率。

相较于传统集群，实现超低延迟、高带宽通信的昇腾超节点，大模型训练的All-to-All通信性能可提升5倍，send/recv集合通信性能可提升7倍，进而大幅降低了整体通信占比，让计算少等待、不等待。打破了通信上存在的瓶颈，整体训练效率提升了3倍、推理吞吐提升了6倍。

第二个是软硬件协同调度，通过异构计算平台CANN的协同，支持专家调度感知训练负载与NPU负载实时状态。

针对MoE模型训练中专家热点分布造成部分计算节点过载的问题，昇腾“超节点架构”能够依据MoE结构中专家分布以及每层的计算需求，精细地将个模型切分至不同节点，更合理分配资源，提高整体资源利用率，同时可运行多种并行策略并动态调整，针对实时的负载情况精准分配计算资源。

第三个是全局内存统一编址，所有的节点共享一套全局内存体系，数据无需频繁搬移，以此来提高训练的效率。

DeepSeek R1已经有288个专家，不排除大模型专家数量越来越多的可能。支持全局内存统一编址的昇腾超节点，具备更高效的内存语义通信能力，通过更低时延指令级内存语义通信，可满足大模型训练/推理中的小包通信需求，提升专家网络小包数据传输及离散随机访存通信效率。

第四个是系统稳定性的提升，保证训练不中断、推理更可靠，大幅降低了MoE大模型的部署和运维门槛。

比如MoE训练过程一旦某专家节点异常，可能导致全局失败的问题。昇腾超节点采用了多平面的链路设计、链路故障秒级切换、算子级重传等可靠性能力，确保大模型训练不中断，平均无故障运行时长从几小时提升到几天。同时支持更敏捷的断点续训，故障恢复时长从小时级降低至30分钟。

可以佐证的是，基于超节点设计的AI集群Atlas 900 A3 SuperCluster，在测试中突破了Scale Up物理节点计算瓶颈，平均无故障运行时长达到数天，训练效率提升了2.7倍；由于所有专家集中部署在一个超节点，在推理过程中实现了15ms超低延迟和高吞吐能力，对推荐系统、搜索排序、智能客服等对延迟极敏感的应用场景更加友好。

03 算力创新蝶变：从“硬件堆叠”到“系统级协同”

除了性能上的提升，MoE架构创新的另一个深远影响，在于降低了推理阶段的综合成本。

过去，大模型的强大性能往往伴随着极高的算力消耗，导致部署门槛极高。MoE通过“按需激活”的专家机制，在保证精度的同时大幅节省了计算资源，为企业级、行业级AI应用的落地打通了路径。

昇腾在算力底层架构上的实干式创新，向外界揭示了一个新的趋势：当大模型走出实验室，走向生产一线，走向规模化应用，为AI提供源动力的基础设施，不再是“硬件堆叠”，而是计算、存储、网络的“系统级协同”。

不单单是亲和MoE模型，搬走了大模型训练的“三座大山”，还预示着AI基础设施的“工程可控性”和“业务适配性”，更好地支持大模型在工业、能源、交通、金融等领域的规模化部署。

如果你也对昇腾超节点感兴趣，想要了解更多技术细节和创新方案，推荐关注5月19日的鲲鹏昇腾创享周直播活动，技术直播的第一场就将深度讲解基于昇腾的超节点架构，如何助力MoE模型的训练和推理，带来15ms超低时延和高吞吐量。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.