网易首页 > 网易号 > 正文 申请入驻

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

0
分享至

机器之心报道

编辑:笑寒、陈陈

这或许是庞若鸣(Ruoming Pang)在苹果参与的最后一篇论文。

庞若鸣,苹果基础模型团队负责人、杰出工程师,即将成为 Meta 新成立的超级智能团队的最新成员。他本科毕业于上海交通大学,在谷歌工作了 15 年,此后加入苹果。另据彭博社最新消息,Meta 更是开出了 2 亿美金的天价来邀请庞若鸣加入。

虽然即将跨入另一段人生旅程,但庞若鸣还在为苹果站好最后一班岗。

7 月 9 日,庞若鸣在 X 上宣传了自己参与的一项研究《 AXLearn: Modular Large Model Training on Heterogeneous Infrastructure 》,据了解,这项研究是构建 Apple Foundation 模型的基础代码库。

具体而言,本文设计并实现了AXLearn,一个用于大规模深度学习模型训练的生产级系统,其具备良好的可扩展性和高性能。与其他先进的深度学习系统相比,AXLearn 具有独特的优势:高度模块化和对异构硬件基础设施的全面支持。

AXLearn 内部的软件组件接口遵循严格的封装原则,使得不同组件能够灵活组合,从而在异构计算环境中快速进行模型开发和实验。

此外,本文还提出了一种用于衡量模块化程度的新方法:基于代码行数的复杂度(LoC-complexity)指标。实验表明,AXLearn 在系统扩展时可以保持恒定的复杂度,而其他系统则呈现出线性甚至二次增长的复杂度。

例如,将 Rotary Position Embeddings(RoPE)这类功能集成到 AXLearn 的上百个模块中仅需约 10 行代码,而在其他系统中可能需要数百行代码才能实现相同效果。同时,AXLearn 也保持了与主流高性能训练系统相当的训练性能。

  • 论文地址:https://arxiv.org/pdf/2507.05411
  • 开源地址:https://github.com/apple/axlearn
  • 论文标题: AXLearn: Modular Large Model Training on Heterogeneous Infrastructure

AXLearn 介绍

现阶段,像 ChatGPT、Gemini 这样的聊天机器人都是由大模型驱动的。这种深度学习系统会优先考虑性能和可扩展性。

作为全球最大的消费电子和在线服务公司之一,苹果已经将许多 AI 模型集成到自家产品中,服务于全球数十亿用户。

除了训练性能和可扩展性外,苹果对深度学习系统还有两个额外的要求。首先是赋能模型工程师,只需编写最少的代码,就能配置复杂的模型定义和训练方法。其次,作为一家大型科技公司,他们不能依赖单一的硬件供应商,因而他们的设计目标是兼容异构后端,如 GPU、TPU 和 AWS Trainium。

为了达到上述目的,AXLearn 被开发出来。

为了促进模块化,AXLearn 的核心设计决策是强制执行严格的封装。 此外,本文还通过将旋转位置嵌入(RoPE)和专家混合模型(MoE)集成到 AXLearn 中的案例研究,展示了该框架与传统代码行数计数方法的一致性。

图 2 显示了 AXLearn 的系统架构和工作流程。AXLearn 有两个关键组件:

(1)AXLearn 组合器(AXLearn composer)和(2)AXLearn 执行框架(AXLearn runtime)。

用户通常使用 AXLearn 内置的层库和第三方层组件来定义训练配置。基于该配置脚本,AXLearn 组合器会首先生成完整的 JAX 程序。

这一过程包含以下关键步骤: 包括为目标加速器实例选择合适的网格形状、为特定层应用分片注释、为目标硬件自动调优 XLA 编译选项、为后端选择合适的注意力内核,并根据模块层次中的标记点应用适当的重计算策略。这些注释对于训练的高效运行至关重要。

然后,JAX 程序和编译选项被传递给 XLA 编译器,以生成加速器程序(例如,CUDA 内核),该程序随后通过 AXLearn 运行时在分布式硬件(例如 Kubernetes)上进行调度,并使用特定于加速器的运行时(例如 CUDA 运行时)。

AXLearn 执行框架监控加速器程序的执行,并提供额外的功能,如高效的检查点、监控和容错能力。

实验评估

下表展示了不同系统的代码量复杂度(LoC-Complexities)汇总。

在 AXLearn 中,RoPE 和 MoE 被严格封装。本文提供了一个 10 行的代码片段,可以将这两个功能集成到任何实验配置中。

在本文的内部实践中,正是通过类似的代码片段,成功配置了超过 1000 个实验,用于启用 RoPE、MoE,或两者同时使用。随着模块数量或 RoPE 或 MoE 变体的增加,无需对任何现有接口进行更改,实现了恒定的代码复杂性。

在异构硬件上的性能

本文将 AXLearn 的训练性能与以下系统进行了对比:PyTorch FSDP、Megatron-LM 以及 MaxText,这些系统在 GPU 与 TPU 上均实现了先进的训练性能。

本文在三种硬件平台上评估了两个模型:Llama2 7B 与 Llama2 70B:

1. 256/512 H100 GPU(分别对应 32/64 个 AWS P5d 实例,每个实例含 8 张 H100);

2. TPU-v5p-512/1024(分别对应 64/128 个 GCP Cloud TPU 主机,每个主机含 4 颗芯片);

3. 1024 颗 Trainium2 芯片(64 个 AWS trn2 实例,每个实例含 16 颗 Trainium2 芯片)。

下表总结了性能结果。

为验证 AXLearn 的可扩展性,本文对两个实际部署的模型进行了弱扩展性(weak-scaling)实验。

这些结果表明,AXLearn 接近线性扩展性,如图 4 所示。

AXLearn 在 TPU 上同样展现出业界领先的推理性能。本文对比了 AXLearn 与 vLLM 在 Llama2 7B 与 70B 参数模型上的推理表现。

如表 4 和图 5 所示,AXLearn 在延迟和吞吐量方面均显著优于 vLLM:

  • 在延迟方面,AXLearn 在 TTFT 和 TPOT 上分别实现了 500 倍和 6 倍加速;
  • 在吞吐量方面,AXLearn 在 7B 模型推理上快 2.8 倍,在 70B 模型上快 1.6 倍。

在生产中的使用体验

如今,AXLearn 已从最初仅有数位开发者、训练百万级参数模型的工具,发展为支持数百位开发者训练十亿至万亿参数规模模型的大型平台。

它在任意时刻可并行支持超过 10,000 个实验的开发与运行,并部署在数十种异构硬件集群上。

借助 AXLearn 训练的部分模型,现已被广泛应用于十亿级用户规模的产品功能中,包括:智能助手、多模态理解与生成、代码智能等关键能力。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
华尔街为啥铁了心打爆黄金多头?

华尔街为啥铁了心打爆黄金多头?

公子豹
2026-02-01 13:33:10
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

格斗联盟
2026-02-01 09:13:23
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

红星资本局
2026-02-01 21:43:04
放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

放35天春节假只是小意思,全网打工人羡慕的“神仙公司”老板:把一半利润给员工

环球网资讯
2026-01-19 07:20:37
2.5吨白银建造!地标建筑“永兴银楼”被拍卖,其中1.75吨银折算1204.7万元,每克6.88元,委托方:不能拆除

2.5吨白银建造!地标建筑“永兴银楼”被拍卖,其中1.75吨银折算1204.7万元,每克6.88元,委托方:不能拆除

大风新闻
2026-02-01 19:13:17
为啥么千万不要低估一个人的恶?网友:你最亲近的越知道往哪捅刀

为啥么千万不要低估一个人的恶?网友:你最亲近的越知道往哪捅刀

带你感受人间冷暖
2026-01-12 00:15:06
男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

云端小院
2026-01-31 08:59:12
女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

女子称退150多元大衣时不慎寄走奔驰钥匙,“配一把6000元”!网店工作人员:若看到会给她

极目新闻
2026-02-01 10:11:45
朝鲜宣布:这是建国以来首次重大决策!

朝鲜宣布:这是建国以来首次重大决策!

IN朝鲜
2026-02-01 15:23:30
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
狱中离世14年后获无罪,当事人律师发声

狱中离世14年后获无罪,当事人律师发声

澎湃新闻
2026-02-01 11:55:05
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
2026-02-02 05:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
本地
家居
公开课
军事航空

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

蓝调空舍 自由与个性

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版