网易首页 > 网易号 > 正文 申请入驻

昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁

0
分享至

1.万卡集群可用度达到98%,集群秒级快恢(训练+推理)

2.集群线性度达到95%+

3.千种故障模式库,分钟级故障诊断

想象一下,你正在用手机导航规划长途路线,背后可能有几十个AI模型同时在分析路况、预测拥堵;医院用AI辅助诊断癌症时,系统需要瞬间处理成百上千张CT影像。这些看似简单的智能应用,背后都依赖着像“超级大脑”一样的AI算力集群在24小时地不停运转。

如果把AI算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备“永不罢工”的能力,给AI算力集群上了一份“保险”,让这个支撑智能时代的“数字发动机”既能承受日常的“小磕小碰”,又能在遇到突发故障时保持稳定运行。只有确保算力资源随时可用、持续输出,才能让AI真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的“半成品”。

高可用核心基础面向超节点的故障感知、管理及容错

AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了全栈可观测能力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断四大能力的故障诊断技术。

在当前行业水平下,万卡级别的AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还导致了算力资源的大量浪费。为解决这一问题,华为团队通过建立AI集群全系统可靠性分析模型,实现对可靠性指标的预计评估和分配分解。从可分析、可增强、可验证、可诊断等方面,持续构建可靠性系统工程能力,突破关键可靠性技术,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力。

超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超时代答、绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降Lane,HCCL算子重执行,借轨通信,双层路由收敛,Step级重调度等特性,实现光模块闪断的故障率容忍度>99%。在新增10倍+光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模块闪断率低至电链路水平,保障了超平面的可靠性。通过构建Step级重调度能力,高频的HBM多比特ECC故障恢复时间缩短至1min,对于因为故障造成的用户算力损失下降5%

高可用助力业务万卡集群上千亿模型的线性度和训推快恢

线性度指标用于衡量训练任务速度或吞吐的提高比例(即完成时间缩短比例)随算力卡数增长比例的比值。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:



实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度为95.05%;4K卡CloudMatrix集群相比256卡基线,线性度为96.48%

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断,业界通常使用训练过程中周期保存的CKPT恢复训练任务。华为基于软硬件全栈的技术方案创新打造了如下分层分级的训练任务故障快恢系统,不同层级的故障恢复能力如下图所示。



通过数据集索引构建加速、模型编译缓存加速、集合通信建链加速、存储CKPT加速等关键技术优化,万卡集群的训练恢复时间可以做到10min以内,进程级重调度恢复能够有效缩短训练恢复时间到3min以内,进程级在线恢复进一步缩短训练恢复时间到30s以内,同时可以降低训练回滚时间到一个训练迭代的时间,且与集群规模、模型规模基本无关,极大提升了AI集群可用度和大模型训练效率。

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对大EP推理架构的可靠性难题,华为团队提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从芯片驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。



其中实例内重启恢复技术,可构筑带内快速故障感知和重调度、参数权重和镜像预热技术等技术,将实例内重启恢复时间压缩到5min内。TOKEN级重试技术,基于DeepSeekV3 1P2D多机CloudMatrix 384场景下,针对HBM KV Cache故障,故障恢复时长(从故障发生到Token重新输出时间),小于10s。相较于业界的10min恢复实例,TLR可将故障影响减少60倍

总结与展望

针对AI算力集群的高可用性,华为团队提出了六大创新方案,即故障感知诊断、故障管理、集群光链路容错等高可用所需要的三大基础能力,以及集群线性度、训练快恢、推理快恢等高可用为业务带来的三大支撑能力。这六大创新均带来了非常可观的收益,比如万卡集群可用度达到98%、集群训推最快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。

面向未来,华为团队会持续在以场景多元化与复合化为代表的新应用驱动、异构融合与对资源池化为代表的新架构突破、极致可观可测与智能自治免维代表的新工程范式三个方向进行探索,带来更多的创新成果。

文/骆敏

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东男子过度溺爱18岁女儿,送成人礼被母亲撞见,失控酿成惨剧

广东男子过度溺爱18岁女儿,送成人礼被母亲撞见,失控酿成惨剧

民间精选故事汇
2025-01-18 11:20:03
表哥结婚我帮忙订酒店,我垫付后却不给报销,结婚当天我让他后悔

表哥结婚我帮忙订酒店,我垫付后却不给报销,结婚当天我让他后悔

温情邮局
2025-11-14 10:08:59
我偷偷给父母存102万养老,中秋回家发现车库停2辆新车,我爸憨笑

我偷偷给父母存102万养老,中秋回家发现车库停2辆新车,我爸憨笑

阿凯销售场
2025-11-13 07:30:09
主流媒体集体脸黑:川普第二任期300天支持率全面超越

主流媒体集体脸黑:川普第二任期300天支持率全面超越

斌闻天下
2025-11-17 08:00:03
惨!郑州一男孩打生长激素换来2940针,不仅没长高,一辈子搭进去

惨!郑州一男孩打生长激素换来2940针,不仅没长高,一辈子搭进去

火山诗话
2025-11-14 21:46:34
政府出手 深圳68亿元收储的烂尾楼将重启

政府出手 深圳68亿元收储的烂尾楼将重启

中国房地产报官方号
2025-11-17 10:13:58
陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

乡野小珥
2025-11-16 06:43:55
中日若爆发冲突,解放军多久能结束战争?答案打脸日本右翼

中日若爆发冲突,解放军多久能结束战争?答案打脸日本右翼

音乐时光的娱乐
2025-11-17 12:04:08
1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

墨印斋
2025-11-15 16:42:56
金鸡奖名场面!第1排大佬坐镇,咏梅表情管理,袁弘第5次当锦鲤

金鸡奖名场面!第1排大佬坐镇,咏梅表情管理,袁弘第5次当锦鲤

娱乐圈笔娱君
2025-11-17 11:29:17
库里11中2,勇士18分大胜,数据揭示最大功臣

库里11中2,勇士18分大胜,数据揭示最大功臣

汪茫的创业之路
2025-11-17 11:45:19
女子陪男友买陪嫁车,试驾时销售悄声提醒:上周他带孕妇来看过车

女子陪男友买陪嫁车,试驾时销售悄声提醒:上周他带孕妇来看过车

晓艾故事汇
2025-11-03 17:09:06
“穷看眉毛,富看腰”:老祖宗的识人智慧,这可不是迷信

“穷看眉毛,富看腰”:老祖宗的识人智慧,这可不是迷信

有故事的人
2025-11-16 06:29:05
日本政府正式宣布! 11月11日日本政府计划2026年起上调签证费

日本政府正式宣布! 11月11日日本政府计划2026年起上调签证费

忠于法纪
2025-11-17 08:57:47
曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

平老师666
2025-11-13 20:51:40
安徽姑娘,狂揽6金!被网友盛赞为“金牌收割机”

安徽姑娘,狂揽6金!被网友盛赞为“金牌收割机”

安徽发布
2025-11-16 20:03:50
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
林徽因这身衣服看着怪怪的,大艺术家的眼光,我们真是欣赏不来

林徽因这身衣服看着怪怪的,大艺术家的眼光,我们真是欣赏不来

大江
2025-11-07 14:11:55
吴石遗孀王碧奎晚年远赴美国到死都没回:我若回去,他就没归途了

吴石遗孀王碧奎晚年远赴美国到死都没回:我若回去,他就没归途了

蜉蝣说
2025-10-28 09:24:30
中国车企突然遭遇缺芯威胁

中国车企突然遭遇缺芯威胁

后视镜里de未来
2025-11-17 10:50:25
2025-11-17 13:51:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1402876文章数 2720046关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

家居
健康
艺术
本地
教育

家居要闻

回廊通道 强化空间秩序

血液科专家揭秘白血病七大误区

艺术要闻

这雪景,太美了!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

教育要闻

学校教育数字化转型 | 江西省南昌市洪都中学:科学教育的数字化转型:人工智能与数字画像的协同效应

无障碍浏览 进入关怀版