网易首页 > 网易号 > 正文 申请入驻

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,华为首次亮相了一套“虚”的技术——

数字化风洞,一个在正式训推复杂AI模型之前,可以在电脑中“彩排”的虚拟环境平台

这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案

而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上。

于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配置。

一言蔽之,为的就是避免浪费时间和算力

更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点:

  • 训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌;
  • 推理阶段:任务差异极大,既要短问答(像城市超跑),又要长文本生成(像越野耐力赛),硬件很难同时满足;
  • 万卡集群:好比管理一个庞大车队,要避免“堵车”、“故障”,确保长时间稳定运行。

而数字化风洞在这个过程中起到的作用,就像是一位让AI算力“少踩坑、跑得更快更稳”的智能调度专家。

并且是对上述三大痛点逐一击破的那种。

Sim2Train:小时级自动寻优

训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。

因此,华为团队提出了一个叫做Sim2Train的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。

这个平台主要的发力点在两个方面。

首先是模拟训练过程

具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装AI任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。

再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。

其次是自动寻找最优方案

它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。

面对CloudMatrix昇腾超节点复杂拓扑结构,Sim2Train还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。

并且基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。


Sim2Infer:分钟级动态加速

除了训练阶段,华为在仿真推理过程中也有妙招——Sim2Infer,让端到端推理性能提升30%

它是一个多层级的推理系统建模仿真,核心能力可以分为五点:

  1. 模拟负载特征:把不同模型和输入数据的计算、内存访问、通信需求用数学模型表示出来。比如,MoE 模型中,不同专家被激活的频率、数据在不同设备间的传输量等。
  2. 分析硬件架构:从芯片微架构(如3D Cube张量加速引擎)到整个集群的网络拓扑(如多台服务器怎么互联),全方位模拟硬件性能。
  3. 描述部署策略:支持配置各种推理策略,比如数据并行(多个设备处理不同数据)、张量并行(拆分计算任务)等,看哪种策略在昇腾上效率最高。
  4. 驱动仿真运行:用 “离散事件” 模拟推理过程,比如某个算子何时开始计算、数据何时传输,精确计算整个推理流程的耗时。
  5. 自动搜索优化:给定约束条件(如延迟不超过20ms),自动搜索最优的模型结构、部署策略和硬件配置。

除此之外,Sim2Infer还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括:

  1. 建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议。
  2. 大EP场景MoE模型的最佳推理部署方案寻优。
  3. 通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新。


Sim2Availability:秒级故障定位

除了训推之外,如何保证大模型在诸如万卡集群上稳定、有效运行,也是一个关键问题——高可用

为此,同样是以仿真的形式,华为的解法便是Sim2Availability

就像用电脑模拟天气一样,这个框架通过建立马尔科夫模型,在计算机里 “虚拟” 出一个集群,模拟各种故障发生,检测及后续影响和恢复的过程,从而分析如何提升可用度。

Sim2Availability在做模拟的关键环节包括:

  • 故障 “生成器”:模拟各种硬件故障,比如NPU出错、内存错误、光模块闪断等,还能模拟多种故障同时发生的情况。
  • 故障 “探测器”:模拟如何检测这些故障,比如通过算法判断网络是否变慢、硬件是否异常,检测的准确性会影响恢复效率。
  • 故障 “影响分析”:比如NPU故障会让训练中断,需要重启;光模块故障会让网络传输变慢,导致训练速度下降。
  • 恢复 “策略库”:针对不同故障设计不同恢复方法,比如 “Step级回滚”(只回退一步训练数据)、“进程级恢复”(只重启有问题的进程)、“全量恢复”(整个作业重启)等。

这些环节可以高效精准构建集群系统对计算、存储、网络的“状态监控”,通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。


以上便是关于华为“数字化风洞”的大致内容,更多详情可戳。

技术报告地址:
https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

“留学一年嘴都变大了”,女学生面相变化图走红,牢A果然权威

泽泽先生
2026-01-25 21:55:27
比亚迪“大唐”无伪实车:5.2米巨舰压境,4.9秒破百剑指理想L9

比亚迪“大唐”无伪实车:5.2米巨舰压境,4.9秒破百剑指理想L9

科技Nice
2026-01-27 14:23:36
湖北毒菜曝光:菜贩自己不吃,专供外地,剧毒农药只为你好看

湖北毒菜曝光:菜贩自己不吃,专供外地,剧毒农药只为你好看

天气观察站
2026-01-27 13:27:00
牢A“美国斩杀线”梳理:最新直播爆料美女留学生当“狗”太辣眼

牢A“美国斩杀线”梳理:最新直播爆料美女留学生当“狗”太辣眼

每日一见
2026-01-26 12:15:12
我年终奖48万,给公婆转了38万,老公来电:爸妈买的保时捷在楼下了

我年终奖48万,给公婆转了38万,老公来电:爸妈买的保时捷在楼下了

程哥讲堂
2026-01-27 16:21:26
面馆免费续面后续,同行站出来怒骂,市监局已介入,这下彻底老实

面馆免费续面后续,同行站出来怒骂,市监局已介入,这下彻底老实

离离言几许
2026-01-27 21:22:35
张雨绮大瓜爆出!

张雨绮大瓜爆出!

微微热评
2026-01-27 00:09:43
美股存储概念股普涨,SanDisk涨超6%

美股存储概念股普涨,SanDisk涨超6%

每日经济新闻
2026-01-27 22:38:08
重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

每日经济新闻
2026-01-25 09:56:41
无疫苗、无特效药!致命病毒扩散,多地重启“新冠级”防疫与隔离

无疫苗、无特效药!致命病毒扩散,多地重启“新冠级”防疫与隔离

北国向锡安
2026-01-27 09:51:11
将帅重逢,中乌赛后前广州队球员同卡帅合影留念

将帅重逢,中乌赛后前广州队球员同卡帅合影留念

懂球帝
2026-01-27 10:09:07
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
日本大选党首辩论,令和新选组“大暴走”!

日本大选党首辩论,令和新选组“大暴走”!

天真无牙
2026-01-26 18:14:22
三星堆不是没法解释,而是不好解释:再挖下去《山海经》就成真了

三星堆不是没法解释,而是不好解释:再挖下去《山海经》就成真了

铭记历史呀
2026-01-27 18:16:58
李思思现身邢台主持,又矮又胖,1米7看着就像1米5,脸还变圆润了

李思思现身邢台主持,又矮又胖,1米7看着就像1米5,脸还变圆润了

小娱乐悠悠
2026-01-26 11:36:45
德国155mm炮弹产能登顶全球,欧洲军工转型提速

德国155mm炮弹产能登顶全球,欧洲军工转型提速

老马拉车莫少装
2026-01-26 21:10:48
65年毛主席接见韩先楚,闲聊时询问:洪学智到哪里去了,好久没见

65年毛主席接见韩先楚,闲聊时询问:洪学智到哪里去了,好久没见

谈古论今历史有道
2026-01-27 16:30:03
欧洲人终于发现了:俄乌闹了4年,合着是华强北在打代理人战争?

欧洲人终于发现了:俄乌闹了4年,合着是华强北在打代理人战争?

壹知眠羊
2026-01-25 19:32:42
独家调查|加拿大医生携幼女来沪求医,花16万元“保脾”!中国医疗不止性价比

独家调查|加拿大医生携幼女来沪求医,花16万元“保脾”!中国医疗不止性价比

第一财经资讯
2026-01-25 19:04:21
姐姐有个闺蜜,38岁未婚,我开玩笑的对她说:干脆嫁给我算了

姐姐有个闺蜜,38岁未婚,我开玩笑的对她说:干脆嫁给我算了

千秋文化
2026-01-26 22:06:26
2026-01-27 23:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12071文章数 176366关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

手机
教育
家居
时尚
公开课

手机要闻

消息称三星Galaxy S26 Ultra手机确认将采用真10bit屏幕

教育要闻

高敏感,是因为孩子拥有一颗超能大脑

家居要闻

现代古典 中性又显韵味

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版