昇腾384超节点首次亮相。
近日,以“智能时代同球共济”为主题的2025世界人工智能大会在上海世博中心盛大启幕。本届大会吸引了来自40余个国家和地区的1200余位嘉宾参会,展览面积首次突破7万平方米,800余家企业集中亮相,展出3000余项前沿展品,规模创历届之最,再度成为全球人工智能领域瞩目的焦点。
在众多令人瞩目的展示中,首次亮相的华为的昇腾384超节点脱颖而出,获评本次大会的“镇馆之宝”,备受关注。
昇腾384超节点基于超节点架构,通过总线技术实现384个NPU之间的大带宽低时延互联。
在大模型蓬勃发展的当下,参数与效率的演进成为行业发展的主旋律。一方面,ScalingLaw持续推动模型能力向极限迈进;另一方面,以DeepSeek为代表的创新架构与工程技术,加速了模型能力在千行万业的落地应用。
在此背景下,MoE成为主流模型结构,但其复杂的混合并行策略带来了巨大挑战,TP、SP、EP单次通信量高达GB级且难以掩盖。随着并行规模不断扩大,传统服务器跨机带宽已成为训练的核心阻碍,亟需计算架构的创新升级以适配未来模型发展。
传统服务器依赖以太网络实现跨机互联,通信带宽较低。实践表明,当TP、SP或EP等分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。正是在这样的技术困境下,昇腾384超节点应运而生。
今年5月,在鲲鹏昇腾开发者大会上,华为推出的昇腾超节点成功实现业界最大规模的384卡高速总线互联,引起了业界的广泛关注。
昇腾384超节点打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构。
具体来看,昇腾384超节点基于超节点架构,通过总线技术实现384个NPU之间的大带宽低时延互联,有效解决了集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化,昇腾384超节点实现了资源的高效调度,让超节点能够像一台计算机一样协同工作,大大提升了系统性能。
同样,昇腾384超节点打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构,凭借高速总线互联技术实现重大突破,把总线从服务器内部,扩展到整机柜、甚至跨机柜。在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,使集群如同一台计算机般协同工作,有效突破系统性能限制。昇腾384超节点依托华为在ICT领域深厚的技术与工程经验,通过最佳负载均衡组网方案,该超节点可进一步扩展为包含数万卡的Atlas900SuperCluster超节点集群,为未来更大规模的模型演进提供有力支撑。
性能测试数据显示,在昇腾超节点集群上,LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍,在行业中处于领先地位。这些数据充分证明了昇腾384超节点在性能方面的卓越表现,为人工智能的发展提供了强大的算力保障。
业界已基于昇腾适配和开发超过80个大模型,在基础大模型方面多个技术方向均有积累。
目前,业界已基于昇腾适配和开发超过80个大模型,在基础大模型方面多个技术方向均有积累,如讯飞星火认知、DeepSeek、Qwen、鹏城、LLaMA等。同时,昇腾联合2700+行业合作伙伴,共同孵化了超过6000+个行业解决方案,使能百模千态,加速行业智能化。昇腾384超节点的出现,无疑将进一步推动这些大模型的发展和应用,为各行业的智能化转型注入强大动力。
在人工智能时代,算力如同电力一样,成为不可或缺的基础设施。昇腾384超节点的出现,为人工智能产业提供了强大的算力底座。
在相关专家看来,在推动新质生产力发展的进程中,人工智能是推动下一轮产业革命的核心驱动力。昇腾384超节点作为人工智能领域的一项重大技术突破,正为这一核心驱动力提供着源源不断的动力。
除了展示昇腾384超节点这一“镇馆之宝”外,华为还携手伙伴共同展示了在互联网、运营商、金融、政务、医疗、油气、交通等11大行业的解决方案实践,吸引了众多与会者的驻足参观与交流。
采写:博文
编辑:博文
指导:辛文
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.