网易首页 > 网易号 > 正文 申请入驻

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者 Hanqing Zhu 与 Zhengyu Zhang 均为 UT Austin 博士生。Hanqing Zhu 专注于高效 AI 计算,致力于优化机器学习硬件、系统及算法;Zhengyu Zhang 聚焦构建高效可靠的机器学习系统。通讯作者为 UT Austin 的 David Z. Pan、Zhangyang Wang 以及 Meta AI 的 Jinwon Lee 。

大语言模型(LLM)正以惊人的速度重塑各个领域的格局,但其预训练与微调过程却面临着前所未有的资源考验 —— 不仅需要庞大的计算能力,更对内存提出了极高要求。

训练 LLM 时,不仅需要存储亿级参数,还必须额外保存梯度与优化器状态(例如 Adam 中的动量和方差)。

例如,预训练 LLaMA 7B 的一个批次就消耗高达 58GB 内存:14GB 用于模型参数,42GB 用于优化器状态和梯度。这巨大的 “隐形” 内存开销迫使研究者不得不选用显存更大的高端 GPU、增加 GPU 数量,甚至牺牲训练速度调低批量大小。

首次以类 SGD 内存成本完成大模型训练

UT Austin 和 Meta AI 推出了全新训练策略 ——APOLLO(Approximated Gradient Scaling for Memory Efficient LLM Optimization)。这一创新方法首次实现了以 SGD 级别的内存成本训练大模型,同时保持了 AdamW 的卓越优化性能(已在 LLaMA 7B 的预训练上验证)。

文章已经被 MLSys 2025 接受,同时目前 APOLLO 已在 Hugging Face Transformers、LLaMA-Factory 等主流开源项目中落地,研究者可以轻松调用这一方法开展低内存大模型训练与微调。

核心亮点

  • 极低内存消耗:首次以类 SGD 内存成本完成大模型训练,达到甚至超越 AdamW 的性能。
  • 无需 SVD 计算:首次实现仅需轻量级随机投影进行大模型预训练,甚至在 7B 模型上优化速度超越 Adam。

卓越系统性能

  • 3 倍预训练加速:在 8 块 A100 GPU 上,APOLLO 预训练 LLaMA 7B 模型实现了 3 倍的加速。
  • 突破规模限制:首次利用 DDP 成功训练 13B 模型,并在 12GB 内存的消费级 GPU(如 NVIDIA RTX 4090)上完成 7B 模型的预训练,无需依赖模型并行、检查点或卸载策略。

  • 论文地址:https://arxiv.org/pdf/2412.05270
  • 论文网站:https://zhuhanqing.github.io/APOLLO/
  • 论文代码: https://github.com/zhuhanqing/APOLLO

方法简要介绍

从 Adam 到结构化更新

在 LLaMA-130M 上的实验验证表明,结构化更新不仅不会导致性能损失,反而会略微提升模型性能(见图 1)。这一发现为 APOLLO 的设计提供了理论基础。

图 1: 结构化梯度缩放与 Adam 的训练损失对比

APOLLO 框架

尽管结构化更新简化了优化器设计,但仍需保存完整的优化器状态,内存开销依然较高。这促使解决以下关键问题:

问题①:是否可以将结构化的学习率自适应转换为一种既实用又内存高效的优化方法?

作者提出了 APOLLO,在低秩空间中构造一个辅助优化器状态,用于预测结构化更新的梯度缩放因子(见图 2)。由于优化器状态建立在低秩空间中,其内存占用显著减少。

图 2: APOLLO 框架

问题②:低秩空间中的自适应学习率能否有效近似其在原始空间中的行为?

APOLLO 通过理论证明,低秩空间中的结构化梯度缩放因子能够有效近似其在原始空间中的行为。同时从低秩空间预测的缩放因子会以 √(n/r) 的比例变化(n 为原始空间维度,r 为低秩空间的秩)。

这使得 APOLLO 可通过放缩缩放因子来弥补低秩带来的误差, 从而可采用极低的秩近似,在不牺牲性能的前提下实现极低的内存消耗。实验表明,在 LLaMA-7B 上,APOLLO 仅需 256 的秩,性能仍优于使用 1024 秩的 GaLore。

图 3:梯度缩放因子随秩的变化按照理论推导的 √(n/r) 变化

问题③:是否仍需要昂贵的 SVD 来构造低秩空间?

不需要。APOLLO 无需传统方法中基于昂贵 SVD 运算的低秩投影方法,只需采用基于随机投影的方法。这种方法避免了 SVD 的计算开销,引入了极低的额外计算,甚至 APOLLO 在 7B 上的优化速度还快于 Adam。

问题④:是否能进一步压缩优化器状态至 SGD 的内存消耗,同时达到甚至超越 AdamW 的性能?

为实现极致内存高效,APOLLO 提出了 APOLLO-Mini。APOLLO-Mini 通过仅使用 rank-1 的辅助子空间进行张量级梯度缩放,而非 APOLLO 中的通道级更新。

实验结果显示,APOLLO-Mini 在实现 SGD 内存消耗的同时,其预训练性能甚至超越了 AdamW。这一结果充分证明了结构化学习率更新的有效性,并为资源有限的研究者提供了高效训练大模型的解决方案。

下图为将 APOLLO 应用于 Adam 的算法:

实验及结果

研究者对 APOLLO 的 LLM 预训练、微调以及系统级性能优势进行了全面评估。

预训练

研究团队在 C4 数据集(经过净化处理的 Common Crawl 语料库)上对基于 LLaMA 的大型语言模型进行了预训练实验。

实验结果显示 APOLLO 系列方法(即使在使用极低秩的情况下,如秩分别为 256 和 1)均能显著降低内存需求,并且获得比 Adam 以及当前 SOTA 方法更好的结果。

表 1: 使用 C4 数据集预训练不同大小的 LLaMA 模型验证集困惑度(↓)对比

在 LLaMA 7B 模型上,APOLLO 系列不仅在内存使用上取得巨大突破,其训练性能也远超过 Adam 以及使用高秩(例如 1024)的 GaLore 方法。

表 2: 使用 C4 数据集预训练 LLaMA-7B 模型验证集困惑度(↓)对比

微调

微调任务(常识推理和 MMLU)中,APOLLO 的表现同样抢眼,达到了甚至超越 Adam 基线的效果。

系统优势

  • 加速训练

在硬件资源受限的情况下,APOLLO 能够支持比 AdamW 高达 4 倍的批量大小,从而实现最高可达 3 倍的训练加速。

  • 极低内存消耗

首次实现了在 12GB 内存的消费级 GPU 上成功预训练 LLaMA 7B 模型,为大模型训练在低资源环境下提供了新的可能性。

图 4:APOLLO 内存和训练速度优势

  • 极低的计算开销

由于不依赖昂贵的 SVD 计算,APOLLO 优化时间在 7B 上甚至比 adam 还要快。

随着大语言模型规模不断攀升,内存需求也在呈爆炸式增长。APOLLO 不仅在理论上打破了优化器内存瓶颈,更在实践中展现出预训练与微调的卓越性能。APOLLO 为资源受限的团队提供了一条低成本、高效率的大模型训练之路,预示着未来大模型训练将进入一个全新的时代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在海滩上挖坑有多危险?美国因此死亡的人数,是鲨鱼咬人的两倍!

在海滩上挖坑有多危险?美国因此死亡的人数,是鲨鱼咬人的两倍!

观察宇宙
2026-06-28 20:18:46
世界杯一战爆红!曼联硬刚曼城阿森纳,豪掷 1 亿截胡超级妖星

世界杯一战爆红!曼联硬刚曼城阿森纳,豪掷 1 亿截胡超级妖星

澜归序
2026-06-29 07:54:19
邮报:Nike为C罗定制新靴,C罗半场将其换下

邮报:Nike为C罗定制新靴,C罗半场将其换下

懂球帝
2026-06-28 20:34:24
2026年基本养老金调整或将启动,江苏退休工龄42年,能涨100吗?

2026年基本养老金调整或将启动,江苏退休工龄42年,能涨100吗?

白昼说故事
2026-06-29 09:04:52
于根伟:我们尽力了,但误判一直都在发生,我们肯定会申诉

于根伟:我们尽力了,但误判一直都在发生,我们肯定会申诉

懂球帝
2026-06-29 11:15:11
谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

草莓解说体育
2026-06-28 18:30:39
“卷”竞赛的大学生

“卷”竞赛的大学生

澎湃新闻
2026-06-29 07:48:28
古尔曼曝光iPhone 18 Pro系列发布时间:或为9月9日

古尔曼曝光iPhone 18 Pro系列发布时间:或为9月9日

PChome电脑之家
2026-06-29 10:27:19
隐瞒5个月,韩国29岁女消防员被逼陪酒霸凌致死,总统震怒彻查!

隐瞒5个月,韩国29岁女消防员被逼陪酒霸凌致死,总统震怒彻查!

新民周刊
2026-06-28 13:05:25
谢霆锋西安开唱前低调打卡油泼面馆,老板称当时根本没认出来,此前他和王菲一同现身咸阳机场

谢霆锋西安开唱前低调打卡油泼面馆,老板称当时根本没认出来,此前他和王菲一同现身咸阳机场

极目新闻
2026-06-27 15:21:39
公益太难了!韩红百人援蒙帮扶活动引争议,网友:这是百人旅行团

公益太难了!韩红百人援蒙帮扶活动引争议,网友:这是百人旅行团

火山詩话
2026-06-28 12:52:05
围堵裁判、主帅怒指裁判!天津赛后大乱局,把足协逼进无解死局

围堵裁判、主帅怒指裁判!天津赛后大乱局,把足协逼进无解死局

宝哥精彩赛事
2026-06-28 19:33:29
油价大跌1.28元/升,92汽油大降三次后,下次7月3日调整

油价大跌1.28元/升,92汽油大降三次后,下次7月3日调整

猪友巴巴
2026-06-27 17:20:03
NBA全明星马布里钱挣够家却散,甘当湖北女婿住岳父母家

NBA全明星马布里钱挣够家却散,甘当湖北女婿住岳父母家

手工制作阿歼
2026-06-28 01:51:27
炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

就一点
2026-06-02 15:45:51
世界杯16强晋级概率出炉!阿根廷93% 日本仅30% 东道主全被看好

世界杯16强晋级概率出炉!阿根廷93% 日本仅30% 东道主全被看好

颜小白的篮球梦
2026-06-29 00:20:07
2026世界杯加时规则:无金球,30分钟后点球决胜

2026世界杯加时规则:无金球,30分钟后点球决胜

竞技风云录
2026-06-29 00:18:04
宜宾深夜突发5.5级!成都重庆都被摇醒,震中6公里浅得反常

宜宾深夜突发5.5级!成都重庆都被摇醒,震中6公里浅得反常

石辰搞笑日常
2026-06-29 03:27:43
性是必需品嗎?

性是必需品嗎?

宇宙时空
2026-05-30 10:40:11
韩红基金会捐款真的有门槛!月捐最低19元,网友:这是赤裸裸侮辱

韩红基金会捐款真的有门槛!月捐最低19元,网友:这是赤裸裸侮辱

火山詩话
2026-06-29 09:55:41
2026-06-29 11:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13382文章数 142683关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

牛弹琴:武契奇提前辞去总统职务 一盘新棋局才刚开始

头条要闻

牛弹琴:武契奇提前辞去总统职务 一盘新棋局才刚开始

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

萧蔷宣布捐出参加“浪姐”所有收入

财经要闻

35岁职场人,又好找工作了?

汽车要闻

精致大气 尊界V800诠释顶级体验的新旗舰MPV

态度原创

教育
数码
手机
公开课
军事航空

教育要闻

初中竞赛题,多数同学漏掉答案吗,老师很生气

数码要闻

联想来酷斗战者三模鼠标GM103上市:PAW3395,59g,到手249元

手机要闻

小米REDMI K90至尊版天际蓝配色公布,明日发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版