网易首页 > 网易科技 > 网易科技 > 正文

华为云黄瑾:昇腾云CloudMatrix 384超节点 定义下一代AI基础设施

0
分享至

5月17日消息,近日,华为云AI峰会在北京召开,华为云副总裁黄瑾发表主题演讲,介绍了更多CloudMatrix 384超节点技术优势与细节。他指出,随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,以系统架构创新重新定义新一代AI基础设施。

当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了1万倍。


然而过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示,面对这些挑战,华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384张卡互联成为一个超级云服务器,最高提供300Pflops的算力规模,比业界同类产品领先67%。

目前,基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙规模上线,黄瑾进一步深入解读了六大技术创新点:

MoE亲和架构,从“小作坊”到“超级工厂”。在传统架构下,MoE模型训练容易因通信延迟导致算力浪费,而CloudMatrix 384超节点的分布式推理平台可以说是专为MoE大模型而生。黄瑾指出,对比一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户,基于华为云昇腾AI云服务部署DeepSeek模型的创新应用,例如在智能助手、智能客服、互联网搜索、内容创作等各种场景落地。

以网强算,双层网络破解“数据堵车”。当AI算力走向规模化部署,单点的芯片性能不再是制约算力发展的唯一变量,如何由点及面地激活算力矩阵的共振效应,也是破解AI时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一,黄瑾介绍,传统网络像拥堵的城市道路,CloudMatrix 384则构建了AI专属高架桥,通过MatrixLink服务将单层网络升级为两层高速网络,一层是超节点内部的ScaleUp总线网络,确保超节点内384卡全对等高速无阻塞互联,卡间超大带宽2.8T,纳秒级时延;另一层是跨超节点间的ScaleOut网络,可支持微秒级时延,资源弹性扩展;同时,基于全局拓扑感知的智能调度算法,保障客户任务长稳运行。

以存强算,弹性内存改写“算存绑定”。 华为云首创了EMS弹性内存存储,打破传统GPU算力与显存绑定的关键障碍,通过内存池化技术,实现显存和算力解绑。一方面,用EMS替代NPU中的显存,可使得首Token时延降低,最高降幅可达80%;另一方面,当NPU的显存不足时,EMS独立扩容,不必再通过堆NPU以获得更多内存。同时,EMS还支持算力卸载,这也使得系统吞吐量提升,有的场景达100%的提升。总之,这一技术创新大幅提升了资源利用率、性能和吞吐量。

长稳可靠,故障自愈的“AI医生”。随着模型训练需求的不断接入,大集群的运维难度大、复杂性高的问题日益凸显。对此,华为云开发了昇腾云脑运维“1-3-10”标准,即1分钟感知、3分钟定界、10分钟内恢复。通过5层压测、静默故障感知技术,昇腾云脑可将硬件故障感知率从40%提升至90%。同时,覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景,这一全栈故障知识库能够覆盖95%常见问题以实现故障快速定界;在恢复机制上,3层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。

朝推夜训,算力资源“错峰用电”。在大模型训练中,提升算力利用率,避免算力闲置也是企业关心的重点之一。CloudMatrix 384超节点通过“训推共池”“灵活调度”两大关键技术实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,算力资源利用率可提升30%以上。

即开即用,“算力水电”普惠模式。为助力客户更好地专注业务模型开发,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百TB级的带宽互联,10毫秒时延圈覆盖全国19个城市群,让客户能够第一时间享受到即开即用的AI算力资源。同时,华为云拥有专业的超节点运维团队,在为客户免去繁琐的管理和维护的同时,保障资源的稳定运行。

黄瑾强调,华为云现已全面适配了DeepSeek在内的160多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。昇腾AI云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业,加速行业智能化应用的快速落地。(崔玉贤)

延伸阅读
相关推荐
热点推荐
蒋万安访大陆,赖清德要抓8人,如果敢抓郑丽文,我军就会出手?

蒋万安访大陆,赖清德要抓8人,如果敢抓郑丽文,我军就会出手?

策略述
2025-12-13 14:15:48
贪小便宜吃大亏,火箭23选秀捡漏白魔,让其失去休城本土明星后卫

贪小便宜吃大亏,火箭23选秀捡漏白魔,让其失去休城本土明星后卫

拾叁懂球
2025-12-14 10:19:53
乌克兰突传捷报,乌军无预警包围俄军,泽连斯基奔赴库皮扬斯克

乌克兰突传捷报,乌军无预警包围俄军,泽连斯基奔赴库皮扬斯克

博览历史
2025-12-14 17:37:21
57岁老人中毒身亡!提醒:吃完他汀千万别碰这些,中老年一定要看

57岁老人中毒身亡!提醒:吃完他汀千万别碰这些,中老年一定要看

荷兰豆爱健康
2025-12-14 15:40:26
康辉:我高考分数远超清北,却被人暗中顶替,依靠父亲查明真相!

康辉:我高考分数远超清北,却被人暗中顶替,依靠父亲查明真相!

丰谭笔录
2025-12-13 10:32:14
各大空调企业推动“铝代铜”标准落地,最大的原因是铜太贵

各大空调企业推动“铝代铜”标准落地,最大的原因是铜太贵

胡言炫语
2025-12-13 15:46:45
苏联攻克柏林后,斯大林没有选黄金,用3000列火车运走德国铁疙瘩

苏联攻克柏林后,斯大林没有选黄金,用3000列火车运走德国铁疙瘩

古书记史
2025-12-11 22:22:41
柬埔寨不甘心战败,使用远程火箭炮打击泰国大坝,中国紧急发声

柬埔寨不甘心战败,使用远程火箭炮打击泰国大坝,中国紧急发声

麓谷隐士
2025-12-13 09:25:14
曾风靡一时的潮汕牛肉火锅,为何如今凉了?网友:套路太深了

曾风靡一时的潮汕牛肉火锅,为何如今凉了?网友:套路太深了

餐饮新纪元
2025-12-13 07:15:41
常遇春把兵符交予朱元璋,回府对心腹说:帐下四千铁骑在城郊埋伏

常遇春把兵符交予朱元璋,回府对心腹说:帐下四千铁骑在城郊埋伏

朝暮书屋
2025-12-12 18:28:28
中国对日称呼有变,非常罕见,日本右翼回过味来:我们该卧薪尝胆

中国对日称呼有变,非常罕见,日本右翼回过味来:我们该卧薪尝胆

现代小青青慕慕
2025-12-14 11:43:57
雷军再次回应争议!

雷军再次回应争议!

电动知家
2025-12-13 16:40:00
GPT-5.2降智遭全网差评!奥特曼慌了

GPT-5.2降智遭全网差评!奥特曼慌了

新智元
2025-12-14 13:22:43
已有多名医护中招!国家卫健委、央视纷纷发声,警惕这一乱象

已有多名医护中招!国家卫健委、央视纷纷发声,警惕这一乱象

医客
2025-12-14 12:08:24
乌远程打击升级,意大利加入反对行列,欧洲还有几个站着的国家?

乌远程打击升级,意大利加入反对行列,欧洲还有几个站着的国家?

山河路口
2025-12-14 16:30:36
给岳母过寿摆宴,买单竟要八万八!经理赔笑:您大舅哥提了十条烟

给岳母过寿摆宴,买单竟要八万八!经理赔笑:您大舅哥提了十条烟

白云故事
2025-12-10 22:50:03
亚洲博尔特!汶颂加冕100米200米新王 全运会冠军施君豪差他0.30秒

亚洲博尔特!汶颂加冕100米200米新王 全运会冠军施君豪差他0.30秒

劲爆体坛
2025-12-13 21:42:05
事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

归史
2025-12-09 11:10:44
遗憾!0-2到3-4!林诗栋苦战7局,输给了张本智和,未能晋级决赛

遗憾!0-2到3-4!林诗栋苦战7局,输给了张本智和,未能晋级决赛

寒律
2025-12-14 16:08:39
崔永熙!无缘广东队12人参赛大名单

崔永熙!无缘广东队12人参赛大名单

体育哲人
2025-12-14 09:49:52
2025-12-14 18:27:00

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

女子240万转错账户慌了 对方欠银行700万已失联

头条要闻

女子240万转错账户慌了 对方欠银行700万已失联

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

“仙女归班”!演员何晴去世,享年61岁

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

本地
亲子
数码
时尚
公开课

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

亲子要闻

多给大孩子一点关爱!

数码要闻

好消息:OPPO大小平板已提速!坏消息:四摄双潜望镜方案或没了!

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×