网易首页 > 网易号 > 正文 申请入驻

谷歌团队再次证明Scaling Law的准确性,仍能超越数据并行训练

0
分享至

Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数据量和计算资源之间的数学关系。但在这两年,由于实际应用局限性、理论解释不完善等原因,Scaling Law 遭到了一些质疑。而 Google 旗下两支团队的最新研究,似乎又给 Scaling Law 投上了一张支持票。

在大模型领域,数据并行训练(Data-Parallel)方法占据着核心地位,它是训练大模型的基础技术之一。然而,随着模型规模的不断增大,数据并行训练方法的通信开销和内存限制等缺点日益凸显。

为此,Google DeepMind 此前研发出一种名为 DiLoCo(分布式低通信优化,Distributed Low-Communication Optimization)的方法,其具备减少通信开销和提高扩展性等优势。

近日,来自 Google Research 和 Google DeepMind 的研究人员发现 DiLoCo 竟然具备更多优势。

研究中,他们研究了在固定计算预算之下训练大模型时 DiLoCo 的 Scaling Law 行为,借此揭示了 DiLoCo 一系列更通用的优点:包括其能够增加最佳 batch 大小、能够提高下游规模的泛化能力、能够在固定 token 预算之下改善评估损失。(注:评估损失,是指模型在验证集或测试集上计算出的损失值。)

研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。

研究人员:Scaling Law 是准确的

而本次研究中,基于相关数据研究人员为数据并行训练方法和 DiLoCo 分别建立了评估损失和最优超参数的 Scaling Law。

借此证明,当 Scaling Law 扩展到更大的模型规模时,其具备更好的评估损失和最优超参数。

令人十分惊讶的是:许多情况下对于相同的 token 预算,在通信效率更高的 DiLoCo 上,这些 Scaling Law 预测会比数据并行训练方法产生更低的评估损失。

为了利用研究人员的 Scaling Law 来预测 DiLoCo 的超参数,他们分别在训练具有 40 亿参数和 100 亿参数的模型时加以测试。

事实证明,Scaling Law 是准确的。即使总通信量减少 99% 以上,DiLoCo 的表现也能优于数据并行训练。

对于研究中的每个实验,在不同带宽和不同延迟的网络下,研究人员都能实现理想的端到端 wall-clock 训练时间。(注:wall-clock time,指的是从任务开始到结束所经历的实际时间,包括所有等待时间和计算时间。)

研究人员的实验包括 M = 1 的 DiLoCo(即仅使用单个副本)。而在这些数据中一个令人惊讶的现象是:即使没有通信瓶颈,DiLoCo 也能改进训练效果。

由于 DiLoCo 实际上是另一种优化算法 Lookahead optimizer 的增强版本,因此它不会导致任何通信的减少。

然而,通过使用低频动量操作,无论在怎样的模型规模下,DiLoCo 在评估损失和对更大 batch 的容忍度上,都要优于数据并行训练方法。

值得注意的是,M=1 的 DiLoCo 在评估损失和训练时间方面都优于数据并行训练方法。

研究人员发现,M=1 的 DiLoCo 在所有模型尺度上都能实现较低的评估损失,并且能对更大的 batch 产生更好的鲁棒性,从而能够大大减少 wall-clock 训练时间。

研究中,研究人员分别通过数据并行训练方法和 DiLoCo 来开展模型训练。

在数据并行训练方法中,在每一步研究人员都会获取一个 batch 大小为 B 的数据。

然后,研究人员计算批次梯度(batch gradient),并使用学习率 γ 进行优化。

在比较数据并行方法和 DiLoCo 时,研究人员始终确保模型大小 N 和总 token 预算 D 保持相同。

为了计算某些留出集的评估损失 L,针对数据并行方法研究人员使用当前模型,针对 DiLoCo 研究人员使用最新的全局模型。(注:留出集,是指从原始数据集中特意保留的一部分数据,用于评估模型的泛化性能。)

在谷歌张量处理单元 TPUv5e 和 TPUv6e 上进行实验

在具体的实验方法上,研究人员使用 Chinchilla-style 的仅解码器 Transformer 架构。

同时,使用 QKLayerNorm 来降低对于学习率的敏感性。需要说明的是,QKLayerNorm 是一种改进的层归一化技术,主要用于 Transformer 架构中的自注意力机制。另外,研究人员还使用 z 损失正则化来提高训练稳定性。

本次研究使用的词汇量为 32,768:其中有 32,000 个词汇表内的单词,另外还有一些额外的标记用于表示句子开头和词汇表外的内容。

实验中,研究人员将多个序列打包到每个 batch 中,整个 batch 的最大序列长度为 2048。

这时,研究人员开始针对一系列的模型进行训练,这些模型的 transformer 层数、注意力头数量、QKV 维度和前馈层隐藏维度各不相同。

其中,QKV 维度是指查询(Query)、键(Key)和值(Value)向量的维度。这些向量是自注意力机制的核心组成部分,用于计算输入序列中不同位置之间的关系。

在大多数实验中,研究人员全程使用 C4 数据集的训练集来训练模型。

此外,还计算了 3 项任务的下游零样本评估指标:HellaSwag、Piqa 和 Arc-Easy。在进行过度训练消融时,使用了 Dolma 数据集。

其还使用了一个改进版的 NanoDO,它利用 DrJAX 在副本之间并行化内部训练步骤,并将模型副本轴暴露出来以便进行显式编程。这对于 JAX 中更好的扩展性能至关重要,因为 DrJAX 提供了 jax.vmap 的丰富版本,能够提供有关 DiLoCo 副本的更明确的分片信息。

与此同时,研究人员使用 all-reduce 进行外部优化。all-reduce 是一种分布式计算中的通信操作,用于在多个 GPU 或多个 TPU 之间高效地聚合数据。

研究中,其始终使用 bfloat16 来表示模型权重和梯度。bfloat16 是一种 16 位浮点数格式,它由 Google 团队开发,它在保留 32 位浮点数动态范围的同时,能够减少存储和计算开销。

研究人员在谷歌张量处理单元 TPUv5e 和 TPUv6e 上进行了大部分实验,并在 TPUv-5 上进行了最大规模的实验。

对于每个实验,其还计算了一个理想化的 wall-clock 训练时间,并在这一时间中考虑了理想化的计算时间和通信时间。同时,其还专门测量了端到端的 wall-clock 时间。

其发现,更大的水平并行化例如通过将 batch 大小加倍,将能够减少 wall-clock 时间。

实验中,研究人员假设其模型正在跨多个数据中心开展训练。当在数据中心之内的时候,能够拥有一个高带宽网络。当跨数据中心的时候,则分别拥有高带宽、中带宽或低带宽的网络。

当通信时间处于理想状态的时候,研究人员始终将高带宽网络用于数据中心内的网络,以及将三种网络中的任意一种用于跨数据中心网络。

DiLoCo:能实现更自然的水平扩展

利用相关数据,研究人员推导出了 Scaling Law,从而能够预测较大模型的评估损失和最优超参数。

根据 Chinchilla Scaling Law,研究人员假设最优 token 预算由 D=20N 给出。

这意味着在模型大小固定的情况下,如果将 batch 大小 B 加倍,则训练步骤的数量将会减半。

实验中,研究人员通过使用 Scaling Law 设置的超参数来训练 4B 和 10B 模型来验证上述观点。

尽管下图展示的是“插值”区域的情况,同时这也是大量扫描的结果,但是这些发现从定性角度来看,同样适用于“外推”区域。这使得研究人员在 M = 1、2 时,能够使用 DiLoCo 将 40 亿参数和 100 亿参数量的模型训练得拥有更低的评估损失。

结果显示,DiLoCo 能够实现更自然的水平扩展性。无论在任何情况,token 预算 D 仅仅是 N 的函数。

这意味着当使用 4 倍大的 batch 时,训练步骤能够减少到原来的 1/4。

对于 DiLoCo 来说,这会产生相当好的性能,并且可以同时使用更多资源,从而减少模型总训练时间。

相比之下,数据并行训练方法似乎需要更多的串行训练。因为,训练时间的减少与通信的减少是相辅相成的。

为了展示这些效果,研究人员在下图中绘制了在不同带宽的网络下训练时的理想化 wall-clock 时间。

借此发现,DiLoCo 对更大 batch 的容忍度使其能够更快地实现与数据并行方法大致相当的损耗。

在下图中,研究人员绘制了不同过度训练量下数据并行方法和 DiLoCo 的理想训练时间(M = 2)。

其发现,DiLoCo 能够通过降低通信成本和利用更大的 batch 来加速过度训练,因此需要的串行训练步骤更少。

这表明 DiLoCo 对于过训练来说是一个巨大的福祉,因为这意味着可以通过横向可扩展性来摊销计算时间。(注:过训练,是指模型在训练过程中过度拟合训练数据,导致其在未见数据上的性能下降。)

与此同时,研究人员的结果表明,DiLoCo 和数据并行训练这两种方法通常都是有效的,尽管没有明确的赢家,但是 M 之间的残差存在显著差异。

尽管如此,研究人员发现平均而言,虽然独立拟合在预测损失和全局批量大小方面略优于联合拟合,但独立拟合在预测内部学习率方面要明显好得多。

总的来说,本次结果表明与数据并行方法一样,DiLoCo 可以随着模型大小的变化实现可预测的扩展,这使得在极大的尺度上调整超参数和训练模型变得更加简单。

此外,DiLoCo 相比数据并行方法可以带来显著优势,包括:使用单个模型副本时具备更优的评估损失,在任何模型副本数量下最优 batch 大小都能增大。对于模型规模、过训练和同步频率来说,这将产生更好的鲁棒性。

不过,眼下显然需要可用于大规模部署 DiLoCo 等方法的系统和软件,并能在真实的超大模型环境中实现其通信效率优势。

参考资料:

https://arxiv.org/pdf/2503.09799

排版:初嘉实

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!黄仁勋“兆元宴”放话:ASIC取代GPU不合理也不现实!2026产业链‘极度吃紧’!

突发!黄仁勋“兆元宴”放话:ASIC取代GPU不合理也不现实!2026产业链‘极度吃紧’!

芯榜
2026-02-01 00:35:26
女孩在家被人打伤后续!被认定互殴,警方回应,上门家长录音克制

女孩在家被人打伤后续!被认定互殴,警方回应,上门家长录音克制

奇思妙想草叶君
2025-12-28 01:17:28
钱再多有什么用?64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用?64岁郎平如今的现状,给所有运动员们提了个醒

春风笑语
2026-01-31 19:01:49
廖锡龙同志生平

廖锡龙同志生平

新京报政事儿
2026-01-30 08:26:37
二战结束男女比例失调,为解决女子生活问题,苏联想出一个小妙招

二战结束男女比例失调,为解决女子生活问题,苏联想出一个小妙招

叹为观止易
2026-01-17 09:55:42
我们的大脑,为什么要封存3岁前的记忆?

我们的大脑,为什么要封存3岁前的记忆?

中科院物理所
2025-12-07 14:24:58
人民日报发文,离世半月的贺娇龙再破天花板,让整个网红圈沉默了

人民日报发文,离世半月的贺娇龙再破天花板,让整个网红圈沉默了

小娱乐悠悠
2026-01-31 12:45:21
43岁范冰冰一战封神!海外受封拿督风光无限,大佬助阵事业全面开挂

43岁范冰冰一战封神!海外受封拿督风光无限,大佬助阵事业全面开挂

八卦王者
2026-01-29 23:08:52
15年前,徐帆砸了沈星的豪宅。 15年后沈星还住在4500万房子里。

15年前,徐帆砸了沈星的豪宅。 15年后沈星还住在4500万房子里。

岁月有情1314
2026-01-29 13:47:16
杨幂黑丝皮衣引爆全网!这身材这气质,男人看了都移不开眼?

杨幂黑丝皮衣引爆全网!这身材这气质,男人看了都移不开眼?

娱乐领航家
2026-01-14 20:10:03
剧透游戏的人都该死,一句话直接毁掉一款游戏

剧透游戏的人都该死,一句话直接毁掉一款游戏

街机时代
2026-01-30 09:25:56
李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

文史明鉴
2026-01-03 21:04:12
女子嫁云南果商,吃车厘子得给钱,偷拉一车水果回娘家,婆婆炸了

女子嫁云南果商,吃车厘子得给钱,偷拉一车水果回娘家,婆婆炸了

离离言几许
2026-01-30 21:33:54
伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

像梦一场a
2026-01-30 20:45:36
别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大!

别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大!

张例喜欢软软糯糯
2026-01-31 00:20:07
中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

悠悠写故事
2026-01-28 17:37:46
新冠不只是伤肺,已大批人出现转氨酶高、肝硬化?自查攻略来了

新冠不只是伤肺,已大批人出现转氨酶高、肝硬化?自查攻略来了

孟大夫之家1
2026-01-30 17:21:15
董璇晒朵朵10岁生日照 陈思诚皮肤黝黑成显眼包 五人同框画风反差萌

董璇晒朵朵10岁生日照 陈思诚皮肤黝黑成显眼包 五人同框画风反差萌

东方不败然多多
2026-02-01 01:28:42
主动发声,亨特或加盟湖人,詹姆斯注定离队,马刺恐成最大黑马?

主动发声,亨特或加盟湖人,詹姆斯注定离队,马刺恐成最大黑马?

体育大朋说
2026-01-30 22:39:41
30人死亡!特朗普陷入健康危机,美或遭伊朗斩首,白宫下令出兵

30人死亡!特朗普陷入健康危机,美或遭伊朗斩首,白宫下令出兵

萧佉影视解说
2026-01-31 15:19:19
2026-02-01 03:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16205文章数 514572关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

游戏
本地
旅游
时尚
公开课

B社大佬:《老滚6》必须好好学《博德3》!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

滇池岸的时光长堤:海埂公园藏着昆明的生态密码与人文深情!

10个瞬间,回顾这一年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版