网易首页 > 网易号 > 正文 申请入驻

分布式训练卡死时,每台机器都显示正常

0
分享至

八块显卡跑在两块主机上,所有单节点监控指标绿油油。但吞吐量掉了四倍。问题藏在跨节点查询里,不在任何一台机器的日志中。

一个典型场景:全员健康,全员卡死


这是GPU集群调试的噩梦模式。八个rank分布在两台主机,执行ncclAllReduce(英伟达集合通信库的全归约操作)。token吞吐暴跌75%,但每台机器上的nvidia-smi显示GPU利用率95-99%,DCGM的SM_ACTIVE指标正常跳动,eBPF追踪看到cudaLaunchKernel → ncclAllReduce → cudaStreamSynchronize完整走完。

真相:rank 5在B节点上某步骤花了380毫秒,其他七个rank 90毫秒就跑完。剩下七人不是闲着——他们在ncclAllReduce里等了290毫秒。ncclAllReduce本身是CUDA核函数,nvidia-smi看来就是"正在运行"。

单节点视角完全失效。你需要问的是:这次端到端掉速,哪个rank的ncclAllReduce比同伴启动更晚?它之前500毫秒在干什么?

这是跨主机关联查询,不是时间序列能回答的。

为什么现有工具集体失明

三个事实,单节点监控永远看不见:

一、rank 5进入屏障比其他rank晚290毫秒——这是集群级事实,不是主机级事实。

二、其他rank在ncclAllReduce里阻塞的290毫秒,本地追踪显示为"正常完成的核函数调用"。

三、根因是rank 5前一步的某个操作,但那个操作的痕迹只存在于rank 5的本地日志。

传统方案把每台机器的采样打到中央仪表盘,画成时间序列曲线。曲线能告诉你"8点15分集群慢了",但回答不了"谁导致的"。

需要的是关系型查询:把八个rank的事件流按时间戳和资源属性(cluster ID, node ID, rank, nranks)做跨节点join。

Ingero Echo的设计:让AI代理能直接问

Ingero的v0.12.4版本已经解决了数据采集。每台主机的agent通过uprobe挂钩libcudart.so和libnccl.so,用eBPF捕获内核调度事件,输出OTLP(OpenTelemetry协议)格式。

v0.12.5补上了集群级归集层:Ingero Echo。

架构很直接。所有Fleet collector的OTLP/gRPC流自动汇入嵌入式DuckDB,单写多读,SQL只读。然后暴露为MCP-over-DuckDB——AI代理可以直接查询。

关键设计选择:DuckDB是嵌入式的,没有外部服务依赖;MCP(模型上下文协议)让LLM能把自然语言问题转成精确SQL,而不是让工程师手写。

验证demo跑了90秒:Echo在:4317端口启动,两个echo-stress实例分别推流(node-a100 + node-h100),合计2000条事件,DuckDB验证全部落盘,因果链标记(causal-chain markers)跨网络存活。

从2000条事件里捞出straggler

demo的核心是证明查询可行。两条事件流来自不同架构的GPU(A100和H100),fan-in进同一张表后,SQL可以按rank分组、按步骤聚合,算出每个rank每步骤的耗时离散度。

380毫秒 vs 90毫秒的异常,在group by step_id, rank having max(duration) > 2*avg(duration)这类查询里直接浮出来。

不需要人工比对八份日志。不需要假设"可能是网络问题"然后逐台ping。问题定义和答案都在同一张表的关系型结构里。

这对AI基础设施意味着什么

大模型训练的成本结构正在变化。算力集群从"能跑起来"进入"能debug"阶段,而debug的瓶颈从"数据不够"变成"查询太难"。

Ingero Echo的赌注是:把集群级事件流变成AI代理能直接操作的SQL接口,让诊断问题的时间从小时降到分钟。2000条事件的demo是个起点——真实训练任务的event量级在百万到十亿,但查询模式相同。

当每台机器都显示健康,但业务指标暴跌时,工具必须能回答"谁拖了后腿"。这是从监控(monitoring)到可观测性(observability)的真正跨越:不是收集更多指标,而是让任意维度的问题都能被查询。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老人不死,子孙遭罪?如果家有八九十岁双亲还在,要牢记这两条准则

老人不死,子孙遭罪?如果家有八九十岁双亲还在,要牢记这两条准则

心理观察局
2026-05-05 09:24:14
理想设计副总裁回应MEGA争议:外观是技术最优解,内饰承认“判断失误”

理想设计副总裁回应MEGA争议:外观是技术最优解,内饰承认“判断失误”

驱动中国
2026-05-08 10:58:21
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
3-0横扫张本美和!中国女乒25岁第一王牌无解:马琳手握定海神针

3-0横扫张本美和!中国女乒25岁第一王牌无解:马琳手握定海神针

李喜林篮球绝杀
2026-05-10 21:21:36
美媒终于意识到,中国人既不期待特朗普访华,也不把美国放在眼里

美媒终于意识到,中国人既不期待特朗普访华,也不把美国放在眼里

兰妮搞笑分享
2026-05-11 00:23:48
何穗母亲节晒亲子照,儿子Win罕见出镜,胖呼呼的很可爱!

何穗母亲节晒亲子照,儿子Win罕见出镜,胖呼呼的很可爱!

TVB的四小花
2026-05-11 01:11:02
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
2.16万一把椅子!丰田皇冠驾驶座被改成办公椅:限量70把需抽签

2.16万一把椅子!丰田皇冠驾驶座被改成办公椅:限量70把需抽签

快科技
2026-05-10 20:05:15
李嘉诚儿子拿下世界杯转播权,全网炸锅

李嘉诚儿子拿下世界杯转播权,全网炸锅

新浪财经
2026-05-09 18:37:21
CCTV5直播!北京VS广东G3生死战,周琦成取胜关键,许利民输不起

CCTV5直播!北京VS广东G3生死战,周琦成取胜关键,许利民输不起

老叶评球
2026-05-10 20:06:29
摊牌了!中美博弈只剩两条路:要么中国让产业,要么美国弃霸权

摊牌了!中美博弈只剩两条路:要么中国让产业,要么美国弃霸权

趣味萌宠的日常
2026-05-10 09:18:58
特朗普访华还有4天,白宫前高管直言不讳:中国可以减少让步!

特朗普访华还有4天,白宫前高管直言不讳:中国可以减少让步!

共工之锚
2026-05-11 00:06:47
降息,突变!美联储、鲍威尔,重磅来袭!

降息,突变!美联储、鲍威尔,重磅来袭!

数据宝
2026-05-10 18:17:12
浏阳烟花厂事故赔偿情况,伤亡人员将如何赔偿?

浏阳烟花厂事故赔偿情况,伤亡人员将如何赔偿?

荣亭小吏
2026-05-10 12:56:26
西汉姆联输球后利兹联宣告保级成功,本轮将客战热刺

西汉姆联输球后利兹联宣告保级成功,本轮将客战热刺

懂球帝
2026-05-11 01:45:23
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
湖南益阳一钓鱼者钓到女尸:死者身份披露,事发全过程还原

湖南益阳一钓鱼者钓到女尸:死者身份披露,事发全过程还原

老猫观点
2026-05-10 16:37:13
湖人0-3验出3大水货!25岁新星黯淡,两大引援成败笔:白扔2300万

湖人0-3验出3大水货!25岁新星黯淡,两大引援成败笔:白扔2300万

李喜林篮球绝杀
2026-05-10 12:28:17
0-3不敌F-勒布伦,林诗栋:我在接发球方面比较慌

0-3不敌F-勒布伦,林诗栋:我在接发球方面比较慌

懂球帝
2026-05-10 11:07:06
无锡一知名面包店停业

无锡一知名面包店停业

无锡eTV全媒体
2026-05-10 17:37:51
2026-05-11 03:44:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
2405文章数 22关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
健康
手机
数码
家居

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

手机要闻

OPPO Reno16系列参数全曝光,就差价格了

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

家居要闻

菁英人居 全能豪宅

无障碍浏览 进入关怀版