昇腾，登顶！|推理|大模型

昇腾，登顶！

2025-05-29 12:32:11　来源: 澎湃新闻

北京举报

分享至

5月28日，业界权威大模型榜单SuperCLUE最新公布，华为基于昇腾集群训练出的盘古Pro MoE大模型交出了超能打的成绩，实现了综合能力的领先。

当前，全球大模型竞争已进入白热化阶段。此前国际顶尖大模型的训练几乎均由英伟达GPU主导。此次华为盘古Pro MoE大模型的发布，证明了昇腾AI计算平台完全具备训练顶尖大模型的能力。这意味着国产AI基础设施的自主创新能力得到了进一步验证，为中国人工智能产业的发展提供了一颗“定心丸”。

模型能力：SuperCLUE榜单上表现卓越

作为华为盘古大模型家族的最新成员，盘古Pro MoE大模型采用混合专家架构（MoE），在参数量仅为720亿，激活160亿参数量的情况下，通过动态激活专家网络的创新设计，实现了以小打大的优异性能，甚至可以媲美千亿级模型的性能表现。

SuperCLUE是中文通用大模型综合性评测权威基准榜单，在最新一期SuperCLUE总排行榜上，盘古Pro MoE达到了59分，千亿参数量以内大模型排行并列国内第一。数据显示，模型在逻辑推理、多轮对话、代码生成等核心能力维度均达到行业领先水平。

创新技术：突破性提出MoGE架构

混合专家模型（Mixture of Experts, MoE）为大型语言模型的高效执行和大规模参数化提供了新的可能性。然而，传统MoE架构在专家负载均衡方面存在显著问题，导致系统效率瓶颈。华为盘古团队推出了基于分组混合专家模型（Mixture of Grouped Experts, MoGE）架构的盘古Pro MoE大模型，通过在专家选择阶段引入分组机制，确保了跨设备的计算负载均衡，不仅解决了传统MoE架构中专家负载不均衡的问题，还显著提升了模型的训练效率和推理性能。在4K昇腾大规模集群上，盘古Pro MoE实现了高效训练的卓越性能。

· 中文技术报告：https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main

· 英文技术报告：https://arxiv.org/pdf/2505.21411

行业价值：以高效能加速AI应用落地

在企业级应用中，盘古Pro MoE动态负载均衡技术有效降低云端推理成本，支撑高并发实时作业场景；同时通过轻量化推理引擎适配昇腾系列芯片，赋能广大客户运行百亿级模型，为AI产业应用领域开辟新蓝海。

据悉，盘古Pro MoE将向开发者社区开放模型权重，赋能行业开发者基于该模型进行垂直领域创新。与此同时，该模型将深度整合至华为云盘古大模型体系，为金融、制造、医疗等行业的智能化升级提供底层能力支撑。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.