网易首页 > 网易号 > 正文 申请入驻

豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

0
分享至



机器之心报道

编辑:Panda

大型语言模型(LLM)训练的核心基础设施是 GPU。现如今,其训练规模已达到数万块 GPU,并且仍在持续扩大。同时,训练大模型的时间也越来越长。例如,一个 405B 参数模型 LLaMA 3 的预训练,动用了 16,384 块 NVIDIA H100 GPU,耗时 54 天。字节跳动曾使用 12,288 块 GPU 训练了一个 175B 参数的模型。最近,xAI 建立了一个拥有 100,000 块 GPU 的集群以进一步扩大训练规模。

资源规模的扩张也带来了故障的普遍发生(例如 CUDA 错误、NaN 值、任务挂起等),这对训练的稳定性构成了巨大挑战。Meta 曾报告称,在 16,000 块 GPU 上训练大模型时,硬件故障大约每 2.78 小时发生一次。

对于 LLM 训练,当前的故障诊断和处理实践通常依赖于在发生「故障即停止」 (fail-stop) 事件后进行日志分析和退出码评估,或者独占整个集群进行压力测试。一旦确定了根本原因,训练任务会通过重新调度的资源和并行配置来恢复,并从远程文件系统重新加载通常由 TB 级数据组成的检查点 (checkpoints)。这种「故障 - 停止-诊断-恢复」的流程会产生不可忽视的开销,耗时从几小时到几天不等。随着模型和资源规模的扩大,故障频率增加,这极大地限制了有效训练时间比率ETTR,即有效训练时间与任务总运行时长的比值)。

因此,任何大规模 LLM 训练基础设施都应致力于实现最小化的训练中断、高效的故障诊断和有效的容错能力,以支持高效率的连续训练。

近日,字节跳动一篇论文介绍了他们 LLM 训练基础设施ByteRobust,引发广泛关注。现在,在训练基础设施层面上,我们终于知道字节跳动会如何稳健地训练豆包了。



  • 论文标题:Robust LLM Training Infrastructure at ByteDance
  • 论文地址:https://arxiv.org/abs/2509.16293

值得注意的是,这项研究共有六位共一作者:Borui Wan、 Gaohong Liu、Zuquan Song、Jun Wang、Yun Zhang、Guangming Sheng。

ByteRobust,一个稳健的 LLM 训练基础设施

ByteRobust 是字节跳动基于生产环境中的观察和经验构建的,力求稳健。

其关键目标是:以最小的非生产时间实现高效的事件诊断和处理,即在大规模 LLM 训练中获得高 ETTR。ByteRobust 经过精心设计,用于监控和管理 LLM 训练的全生命周期,以便大规模地自动高效处理训练事件。

ByteRobust 由两个核心组件构成:控制平面 (control plane) 和数据平面 (data plane)。



ByteRobust 的架构

控制平面在训练任务外部运行,负责协调稳健的事件处理策略,包括检测异常、定位故障并触发适当的恢复操作。

其中,Robust Controller负责协调一个自动化的故障缓解框架,利用实时监控和「停止 - 诊断」来处理大多数事件。为了实现可控的快速恢复,当没有机器被驱逐时,它使用一种「原地热更新」机制来重启训练。当决定驱逐某些机器时,它会请求经过自检预验证的「温备用」机器来恢复任务。

Runtime Analyzer则通过聚合来自训练 Pod 的堆栈跟踪来隔离和(过度)驱逐可疑机器,以解决任务挂起和性能下降问题。

数据平面驻留在每个训练 Pod 内部,集成了监控、诊断、检查点管理和堆栈跟踪捕获等模块,提供实时可观测性、中断时的即时诊断、快速的检查点回滚以及按需的聚合分析。

Robust Agent守护进程在每个训练 Pod 中运行,处理来自稳健控制器的控制信号,并管理以下四个子模块:

  • 监控器 (Monitor)收集多方面数据以检测异常值,支持实时检查并在出现异常时触发聚合分析。
  • 诊断器 (Diagnoser)在任务暂停后运行特定领域的基准测试和测试套件,从而能够对复杂故障进行深入诊断。
  • 按需追踪器 (On-Demand Tracer)从训练进程中捕获堆栈跟踪(当调用聚合分析时)并将其上传到运行时分析器。
  • 检查点管理器 (CKPT manager)执行异步检查点设置,并将备份跨并行组存储到 CPU 内存和本地磁盘,以最小化恢复成本)。

与传统的 GPU 管理和容错系统(通常在 Kubernetes Pod 级别运行)不同,ByteRobust 是将 LLM 训练任务的清单扩展到包含细粒度的进程管理,能够利用运行时信息进行故障检测并实现快速恢复。ByteRobust 通过一套全面的技术实现了这一目标,其新颖的系统设计理念总结如下。

优先快速隔离,而非精确定位

ByteRobust 倾向于快速的故障隔离,而不是详尽的定位。在超大规模的 LLM 训练中(通常涉及数千块 GPU),精确定位故障可能会导致大量 GPU 闲置。

为了最大化 ETTR,字节跳动的做法是将轻量级的实时检测与分层的「停止-诊断」相结合,以最小的开销快速甄别出故障机器。

当这些方法不足以解决问题时,ByteRobust 会应用一种数据驱动的方法,对运行时的堆栈跟踪进行聚类分析,以在定义的故障域(即并行组)内隔离可疑机器,宁可「过度驱逐」它们,也不去追查确切的根本原因。



将人为错误纳入设计考量

与标准的深度学习训练任务不同,长达数月的 LLM 训练涉及数据、算法和工程代码的持续更新,这加剧了系统的脆弱性。

认识到人为错误是不可避免的故障来源,字节跳动提出了一个自动化容错框架。



ByteRobust 的自动化容错机制

该框架结合了用于即时检测常见错误的实时检查、用于深入分析复杂故障的「停止-诊断」、用于从瞬时故障中恢复的原地重试、用于从有缺陷的用户代码中恢复的代码回滚,以及用于解决如 SDC 等极端情况的回放测试。

此外,通过一种「延迟更新」的方法,用户代码的变更可以与确定性故障的恢复过程合并,从而利用了故障的必然性和高频率。

在快速恢复期间控制可变性

故障源于硬件缺陷和软件错误,并且机器在长时间运行的任务中可能会性能退化。因此,在代码升级和恢复过程中确保稳定性至关重要。

对于不改变机器分配的变更,字节跳动使用一种「原地热更新」机制来保留运行时环境并简化诊断。

为确保可控且快速的恢复,ByteRobust 利用预先配置的「温备用」 (warm standbys) 机器,这些机器在交付前会执行自检,以避免整个任务的重新调度。

最后,字节跳动的检查点模块通过将备份分布在不同的并行组中(位于任何单个故障域之外),与故障域紧密结合,消除了对远程文件系统的依赖,从而实现快速重启。

ByteRobust 已被实际部署

字节跳动表示,ByteRobust 已经实现并已实际部署超过一年时间,用于支持字节跳动在高性能生产 GPU 集群中的内部 LLM 训练。字节跳动表示,ByteRobust 可以有效减少事件检测时间,并通过自动容错框架和聚合分析解决事件。

在为期三个月的时间里,ByteRobust 通过其自动化容错训练框架识别了 38,236 次显式故障和 5,948 次隐式故障。



字节跳动在三个月期间收集的训练事故统计数据,涵盖了 778,135 个 LLM 训练任务。

字节跳动在 16,384 块 GPU 上的微基准测试实验表明,温备用和热更新机制在恢复速度上分别实现了高达 10.87 倍和 11.04 倍的提升。



ByteRobust 中高效的检查点机制实现了「每步检查点」(every-step checkpointing),其开销低于 0.9%,从而加速了故障切换。



部署实验表明,在一个为期三个月、使用 9,600 块 GPU 的密集模型(类似 Llama,70B+)训练任务中,ByteRobust 实现了高达97%的 ETTR。



Cumulative ETTR 和 sliding-window ETTR 是字节跳动引入的新指标,其中前者是累积的有效训练时间与任务运行的累积总时长的比率,而后者在一个小时的窗口内计算的 ETTR,能更准确地反映间歇性故障的影响。

另外,他们也进行了一个为期一个月的 MoE 模型(Doubao-1.5-pro,200B+)训练任务,ByteRobust 的表现同样非常不错。

同时,随着训练的进行,两个任务的相对 MFU(Model FLOPs Utilization)持续增长。在训练期间,字节跳动最初在集群上部署了一个朴素版本的预训练代码,然后不断地调整和优化其学习过程和计算效率。



在上图中,MFU 曲线的每一次跃升都表明,一个更高效的训练代码版本通过 ByteRobust 的热更新机制部署了,而这对 ETTR 造成的降低微不足道。与初始运行时相比,字节跳动在密集模型和 MoE 任务中分别实现了 1.25 倍和 1.58 倍的 MFU 提升。

字节跳动还观察到,与密集模型相比,MoE 训练的 ETTR 相对较低。

密集模型的训练性能通常已由社区充分优化,而 MoE 训练则不同,它通常涉及大量自定义优化,如 GPU 内核调优、计算与通信重叠以及负载均衡策略。虽然这些优化对于提高训练效率是必要的,并表现出更高的 MFU,但它们也引入了额外的复杂性,增加了代码回滚和手动重启的可能性。

更多详情请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台岛天然气仅剩7天,全岛恐断电!赖清德彻底摆烂,统一要来了

台岛天然气仅剩7天,全岛恐断电!赖清德彻底摆烂,统一要来了

凉了时光人
2026-03-29 00:53:10
猝死的人越来越多?医生再次强调:宁可打打牌,也别做这6事

猝死的人越来越多?医生再次强调:宁可打打牌,也别做这6事

岐黄传人孙大夫
2026-03-28 22:55:03
5万亿网贷大整治!24%红线压顶,行业彻底告别野蛮生长

5万亿网贷大整治!24%红线压顶,行业彻底告别野蛮生长

侃故事的阿庆
2026-03-30 00:56:22
3.30日早评|可能打起来!A股要爆了!

3.30日早评|可能打起来!A股要爆了!

龙行天下虎
2026-03-30 01:42:53
张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

离离言几许
2026-03-27 14:42:23
中东战火升级!中国军火订单爆了,阿塞拜疆砸42亿,下单40架枭龙

中东战火升级!中国军火订单爆了,阿塞拜疆砸42亿,下单40架枭龙

环球情报员
2026-03-29 22:36:51
医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

健康科普365
2026-03-28 18:20:07
黄循财:新加坡不再对标香港

黄循财:新加坡不再对标香港

跟着老李看世界
2026-03-29 10:26:02
杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

千秋文化
2026-03-25 21:29:50
马卢阿奇12分9篮板!首轮秀仅杨瀚森未得分上双

马卢阿奇12分9篮板!首轮秀仅杨瀚森未得分上双

体坛周报
2026-03-29 14:32:16
38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

38岁老板娘沦为陪睡工具:揭秘黑茶高端骗局,入局者10有9个离婚

云景侃记
2026-02-12 22:21:30
夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

健康科普365
2026-03-29 17:25:11
警惕!公知正在悄悄换掉我们的价值观:三件事正在瓦解社会根基

警惕!公知正在悄悄换掉我们的价值观:三件事正在瓦解社会根基

云景侃记
2026-03-26 14:56:36
上海还好签了白边!王哲林状态断崖式下滑,洛夫顿隐患太大了!

上海还好签了白边!王哲林状态断崖式下滑,洛夫顿隐患太大了!

篮球资讯达人
2026-03-29 22:51:11
连大学都没上过的“学渣”,却当了央视30年名嘴,如今成女性榜样

连大学都没上过的“学渣”,却当了央视30年名嘴,如今成女性榜样

珺瑶婉史
2026-03-30 00:30:03
四川起义军突然反水,处决十六名军代表,为何比土匪更凶残

四川起义军突然反水,处决十六名军代表,为何比土匪更凶残

唠叨说历史
2026-03-25 11:05:30
辟谣辟谣!广州供电局“疯狂”辟谣!

辟谣辟谣!广州供电局“疯狂”辟谣!

新快报新闻
2026-03-29 16:34:02
伍兹车祸被捕!名嘴吐槽:13亿身家请个司机很难吗?活着不好吗?

伍兹车祸被捕!名嘴吐槽:13亿身家请个司机很难吗?活着不好吗?

仰卧撑FTUer
2026-03-29 19:56:03
汽柴油即将下调!3月29日92/95号汽油最新价,4月7日调价窗口开启

汽柴油即将下调!3月29日92/95号汽油最新价,4月7日调价窗口开启

沙雕小琳琳
2026-03-29 10:28:54
CCTV5直播国足VS喀麦隆!谢文能火线复出 邵佳一高位逼抢打平当赢

CCTV5直播国足VS喀麦隆!谢文能火线复出 邵佳一高位逼抢打平当赢

刀锋体育
2026-03-29 12:55:45
2026-03-30 03:44:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142599关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

健康
艺术
亲子
旅游
教育

干细胞抗衰4大误区,90%的人都中招

艺术要闻

不守墨矩的扬州八怪

亲子要闻

罕见五胞胎全保住,20多名医护深夜齐上阵

旅游要闻

2026上海旅游产业博览会开幕,一城三馆联动书写文商旅体展消费新篇章

教育要闻

建议给家长放春秋假,否则的话,学生放春秋假就失去意义

无障碍浏览 进入关怀版