网易首页 > 网易号 > 正文 申请入驻

华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”

0
分享至

大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入“龟速”困局。华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上,而传统“人拉肩扛”的优化方法在芯片特性的“三角矛盾”(算力-带宽-容量失衡)前束手无策。

三大挑战:动态负载需求下的软硬件博弈

  • 大规模训练集群的利用率黑洞:大模型训练过程像驾驶中的"猛踩油门"(训练阶段密集计算),MoE模型更如混合动力车,需精准平衡计算与内存配比,极致压缩通信占比,稍有不慎便效率骤降。

  • 动态实时推理系统任务的两极分化:从短问答(城市道路)到长文本生成(越野山路),推理阶段硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力,在不同任务场景实现动态效率最优。

  • 复杂万卡集群的长稳运行为突破计算-内存动态博弈(服务区分配)、异构任务资源争抢(车祸变道)及硬件耐久性(车道维护)瓶颈,需实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行。

博弈破局之道:“数字化风洞”

在正式开展复杂AI模型的训推之前,可以先在虚拟环境的“数字化风洞”中 "彩排"。比如研发一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景的表现,就像电影导演用动画预演复杂镜头。这种 "先模拟后实战" 的方式,能提前发现计算系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。

面对昇腾芯片的异构特性(跑车式高算力 vs 货车式大容量),华为马尔科夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行“又快又稳”。

Sim2Train:昇腾训练集群架构仿真与设计空间自动寻优(大规模训练集群的“效率发动机”)

基于仿真能力,通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41%。这套方案如同为大模型系统装上自动驾驶仪,让每一份算力都在精准导航下全速驰骋。

  • 动静态融合的大规模训练集群建模仿真方法通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型对计算、内存、通信的"油耗需求",结合对昇腾平台的精准硬件刻画能力,依托有向无环图连通静态建模与动态仿真,精准刻画大规模训练集群运行效率。

  • 以仿寻优,“千锤百炼”终获最佳方案:依托负载-软件-硬件协同优化范式,发现最优的设计与优化方案。1)实现面向昇腾平台的模型结构智能搜索与优化,达成模型性能与功能能力的最优均衡;2)面向 CloudMatrix 昇腾超节点复杂拓扑结构,实现芯片级、拓扑级与负载级的全栈架构建模与策略联合优化;3)基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

图1 Sim2Train训练仿真系统框架

Sim2Infer:昇腾推理系统架构仿真与运行时在线自优化(动态实时推理系统的“性能加速器”)

基于仿真能力,通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理、全局最优化负载均衡部署、服务化调度策略分钟级在线优化策略自动求解,端到端推理性能提升30%+。这套方案如同符文契约下的高科技炼金熔炉,压榨每一份算力资源。

  • 多层级推理系统建模仿真,负载生成-请求调度-推理引擎-硬件系统四层架构:构建了面向昇腾平台的复杂推理建模仿真系统,该系统集成了五大核心功能模块:负载特征建模、层次化系统架构分析、模块化策略描述、离散事件驱动仿真和分层搜索优化机制。

  • 动态优化,极致压榨硬件能力的“性能炼金术”:通过软硬协同的建模仿真驱动一系列的推理系统创新优化。1)建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议;2)大EP场景MoE模型的最佳推理部署方案寻优;3)通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+,为大模型在昇腾平台上提供低延迟、高吞吐的推理部署方案。

图2 Sim2Infer推理仿真系统框架

Sim2Avaliablity:昇腾算力系统高可用架构仿真与统一协同管控(大规模训推集群的“安全气囊”)

基于高可用仿真能力,通过随机优化搜索、灵敏度分析、动态规划去冗余优化等技术,实现集群硬件架构可靠性瓶颈定位及优化、软件故障统一管控决策,支撑万卡集群分钟级快恢,可用度达成98%。这套方案如同为大规模集群系统装上“安全气囊”,保障高效算力长稳运行。

  • 硬件故障模式全栈监控的“智能感知座舱”:高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。结合故障随机模拟,构建蒙特卡洛分析硬件可靠性瓶颈,实现集群硬件可测可控。

  • 软件统一协同管控仿真,保证高效弹性快速恢复:从细节到全局高效分析不同故障场景下的端到端系统可用度。1)从计算侧、网络侧及整个集群等层面量化分析,实现了可靠性瓶颈定位,强力支撑 AI 集群高可用架构设计;2)通过动态规划弹性调度、极致去冗余并行掩盖优化等技术实现算力系统可用度提升显著。保障算力稳如磐石,管控调度优化效率跃升数倍。

图3 Sim2Availability高可用仿真系统框架

未来与展望

随着新型应用快速变化(细粒度MoE、原生多模态、生成式推荐、Agentic AI、Physical AI、互联网AI),系统架构持续创新(PIM/NDP、Wafer-Scale Computing、集群池化系统、光电混合系统),未来算力基础设施的架构设计与优化空间持续激增,需要建模仿真方法支撑算力基础设施的持续演进。华为马尔科夫建模仿真团队将继续持续深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解、架构设计空间探索、故障仿真快速排查、算力系统Benchmark构建等领域发力,助力华为昇腾集群高效平稳运行,推动国产算力基础设施建设与AI计算技术创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原以为纯电车取代燃油车只是时间问题,没想到半路杀出个程咬金!

原以为纯电车取代燃油车只是时间问题,没想到半路杀出个程咬金!

南权先生
2026-02-04 16:00:41
2025年俄罗斯对香港黄金出口额达到创纪录的105亿美元

2025年俄罗斯对香港黄金出口额达到创纪录的105亿美元

俄罗斯卫星通讯社
2026-02-06 15:14:57
荣耀否认抄袭iPhone,客服:独立设计

荣耀否认抄袭iPhone,客服:独立设计

观察者网
2026-02-04 15:58:45
《生命树》白芍远走广州藏两层深意,多杰张勤勤的关系早有伏笔

《生命树》白芍远走广州藏两层深意,多杰张勤勤的关系早有伏笔

怂熊剧场
2026-02-07 04:17:14
反击已经开始,中国3份通告直达巴拿马,想“吞”港口后果很严重

反击已经开始,中国3份通告直达巴拿马,想“吞”港口后果很严重

忠于法纪
2026-02-07 09:43:30
官方:郑钦文成为土耳其航空全球品牌代言人

官方:郑钦文成为土耳其航空全球品牌代言人

懂球帝
2026-02-06 16:24:04
巴拿马强吞中资港口,076携神秘隐身战机就位,中国绝非软柿子

巴拿马强吞中资港口,076携神秘隐身战机就位,中国绝非软柿子

隐龙天下
2026-02-07 02:39:50
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
26岁进央视,31岁顶替董卿,才华横溢却因私生活被诟病

26岁进央视,31岁顶替董卿,才华横溢却因私生活被诟病

安逸安逸
2026-02-07 02:03:22
上海主帅卢伟展望半决赛对阵山东:需要更多的年轻球员承担责任

上海主帅卢伟展望半决赛对阵山东:需要更多的年轻球员承担责任

狼叔评论
2026-02-06 22:50:08
1992年枪决新兵记录,死刑前嚎啕大哭,年仅18岁犯下大罪

1992年枪决新兵记录,死刑前嚎啕大哭,年仅18岁犯下大罪

灿若银烂
2026-02-04 23:23:27
绷不住了,福建某电力设计院大面积欠薪引发离职仲裁潮!

绷不住了,福建某电力设计院大面积欠薪引发离职仲裁潮!

黯泉
2026-02-06 23:41:49
洪欣为12岁女儿庆生引热议! 25岁儿子俊朗帅气,颜值继承母亲美貌

洪欣为12岁女儿庆生引热议! 25岁儿子俊朗帅气,颜值继承母亲美貌

明星私服穿搭daily
2026-02-05 08:38:50
正式退出,邱贻可遗憾,组合解散,前国手曝料,孙颖莎看懂了

正式退出,邱贻可遗憾,组合解散,前国手曝料,孙颖莎看懂了

卿子书
2026-02-06 08:44:50
深圳挺坚挺的小区出现“砸盘”式下跌!网友称投资鼎益丰的人暴雷

深圳挺坚挺的小区出现“砸盘”式下跌!网友称投资鼎益丰的人暴雷

火山诗话
2026-02-06 07:22:03
汪小菲一家最新同框,小玥儿长得不像大S,马筱梅卸货在即状态好

汪小菲一家最新同框,小玥儿长得不像大S,马筱梅卸货在即状态好

地理三体说
2026-02-06 21:49:31
男子入住信息被泄露给女友,全季酒店:确实泄露了,已培训过,系员工个人责任

男子入住信息被泄露给女友,全季酒店:确实泄露了,已培训过,系员工个人责任

大风新闻
2026-02-06 14:42:32
玄学提醒:永远不要指出你身边任何人的问题,小心祸从口出

玄学提醒:永远不要指出你身边任何人的问题,小心祸从口出

木言观
2026-01-25 13:56:52
炸锅!利物浦核心逼宫涨薪 2.5 倍 皇马趁机抢人!

炸锅!利物浦核心逼宫涨薪 2.5 倍 皇马趁机抢人!

澜归序
2026-02-07 05:23:24
农心杯日韩决赛一力辽差点创造历史,别再小瞧日本棋手了

农心杯日韩决赛一力辽差点创造历史,别再小瞧日本棋手了

月满大江流
2026-02-07 07:00:03
2026-02-07 10:27:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243845文章数 621436关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

房产
亲子
旅游
手机
公开课

房产要闻

新春三亚置业,看过这个热盘再说!

亲子要闻

3岁萌娃10句话“立规矩”

旅游要闻

@大湾区游客:和香港群星一起乘“小车小团”游多彩贵州

手机要闻

iPhone 17等部分用户反馈苹果原生App未统一删除按钮设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版