网易首页 > 网易号 > 正文 申请入驻

谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路

0
分享至

新智元报道

编辑:编辑部 NJY

【新智元导读】谷歌团队发现了全新Scaling Law!新方法DiLoCo被证明更好、更快、更强,可在多个数据中心训练越来越大的LLM。

测试时计算之后,谷歌三大团队集众人之力,发现了全新的Scaling Law!

刚刚,谷歌研究员Zachary Charles宣布:「在越来越大的模型上,分布式训练取得重大突破」。

这个核心算法,便是——DiLoCo的Scaling Law。

新的训练方法无惧模型规模,未来,在「多个数据中心」训练大模型的规模不再是问题。

论文得出四大发现,DiLoCo训练方法的Scaling law,效果远超「数据并行」:

更稳健(Harder):在不同模型规模下,DiLoCo的超参数依然保持稳定且可预测。

更优越(Better):随着模型规模扩大,DiLoCo相较于数据并行训练的优势进一步提升。

更高效(Faster):DiLoCo所需的带宽比数据并行训练少几个数量级。

更强大(Stronger):DiLoCo能够容忍比数据并行训练大得多的批大小。

值得一提的是,这篇巨作集结了谷歌三大团队:谷歌Research、谷歌Search、谷歌DeepMind。

论文地址:https://arxiv.org/pdf/2503.09799

在固定计算预算下,研究人员探讨了DiLoCo在训练大模型时的Scaling law。

论文中,重点分析了算法因素(如模型副本数量、超参数设置、token预算)如何影响训练过程,并证明这些影响可通过Scaling law准确预测。

结果表明,DiLoCo在模型规模增长时,表现出稳定且可预测的扩展性。论文合著者Arthur Douillard再次强调:DiLoCo生效了!

智能的未来将是分布式的,而DiLoCo可能正是那个关键的要素

在合理调优的情况下,DiLoCo比数据并行训练更具扩展优势,即使在小规模模型上也可能优于数据并行训练。

这些发现,揭示了DiLoCo的强大优势:不仅解决了通信瓶颈,还为大规模模型训练开辟了全新的可能。

有网友惊叹地表示,「DiLoCo可能会重新定义LLM Scaling的方式!更少的带宽需求,更高的效率」。

左右滑动查看

「数据并行」训练终结?

数据并行训练在大模型上表现出色,前提是在计算资源集中分散的情况下,才能实现。

如果计算分布较广,通信就可能成为巨大的瓶颈,尤其是当模型规模增长时,问题会更加严重!

机器学习采用的解决方案,例如在联邦学习和数据中心训练中,就是让多个独立模型进行训练,并定期同步。

随着机器学习模型规模的扩大,数据并行方法固有的频繁同步需求会导致显著的性能下降,这对进一步扩展模型构成了关键挑战。

那么,如何在保持模型质量的同时,降低同步需求,以突破这一瓶颈呢?

答案或许就在,DiLoCo(Distributed Low-Communication)这一创新方法中。

论文链接:https://arxiv.org/abs/2311.08105

每个DiLoCo模型副本都会独立训练H个内部优化(inner optimization)步骤。

这些模型通过外部优化(outer optimization)步骤进行同步,通常在外部优化步骤之间引入动量机制。

在下图中,示例中共有M=4个模型副本。

DiLoCo的成功已经被反复验证。它的运作方式与联邦学习的FedOpt方法类似。

此外,研究人员也多次证明DiLoCo在大模型(LLM)训练中的卓越表现。

那么DiLoCo有什么问题?简单来说——规模

DiLoCo与数据并行训练不同,它引入了额外的「外部」超参数,并且实际上的表现和理论上明显不同。

这正是研究scaling laws的目的!

这次研究从零开始构建了DiLoCo和数据并行训练的Scaling law,用于预测它们在大规模模型上的表现对比。

在数据并行训练中,每个训练步长都会处理一个大小为B的数据批。

在本研究中,批大小指的是批中的token数量(而不是序列数量)。

计算批梯度,并使用学习率γ进行优化。

在DiLoCo训练过程中,每个时间步t处理一个全局批大小为B的数据,并在序列级别将其均匀分配到M个DiLoCo副本中。

因此,全局批大小仍然是B,而每个DiLoCo副本的本地批大小为B/M。与数据并行训练类似,每个副本都会计算批梯度,并使用学习率γ执行一次内部优化(inner optimization)。

但与数据并行不同的是,DiLoCo每H步会执行一次「外部优化」(outer optimization),基于参数空间计算的外部梯度(outer-gradients),并使用学习率η进行更新。

一个重要的对比是数据并行vs.DiLoCo(M=1)。

虽然它们相似,但并不完全相同。

DiLoCo在M=1的情况下,仍然包含一个外部优化器(OuterOpt)步骤,因此它可以被视为Lookahead优化器的变体。

而在DiLoCo中,OuterOpt通常使用带有Nesterov动量的GD,这意味着DiLoCo(M=1)实际上是数据并行训练的一个变体,但动量操作仅每H步执行一次。

还进行了大量实验,涵盖训练过程的各个方面,全面分析了它们的扩展行为。

实验方法

大部分实验里,研究团队使用C4数据集的训练集来训练模型,评估指标用C4的验证集。

另外,还在三个下游任务上算了零样本评估指标:HellaSwag、Piqa和Arc-Easy。


模型架构:Chinchilla变体

研究团队用的是一个类似「Chinchilla」的纯解码器Transformer架构,加入了QK-LayerNorm,还使用了z-loss正则化来让训练更稳定。

他们把多个序列打包到每个批里,最大序列长度全程固定为2,048。

所有模型都是从零开始训练的,因为这次主要想研究预训练阶段的规模规律。

研究团队训练了一堆模型,调整了Transformer层数、注意力头的数量、QKV维度和前馈层的隐藏维度。

除非特别说明,他们都用Chinchilla的token预算,并且对除了最大的两个模型(4B和10B参数)外,其他模型都做了大量的超参数调整。


算法和优化器

研究团队用AdamW作为数据并行(Data-Parallel)的优化器,也是DiLoCo的内层优化器。两个算法的β1设为0.9,β2设为0.99。

训练开始有1000步的预热,然后用余弦学习率衰减。权重衰减参数λ设为T⁻¹,其中T是总训练步数(取决于批大小和token预算)。到训练结束时,学习率衰减到峰值的5%。

为了训练稳定,他们把(内层)梯度的全局ℓ2范数剪裁到1,外层梯度不剪裁。

对于DiLoCo,他们用带Nesterov动量的SGD作为外层优化器。动量设为0.9,外层学习率保持不变。

从0构建,全新Scaling Law已来

发现1:规模

DiLoCo的评估损失随着N的增加,相对于数据并行(Data-Parallel)有所改善。

Scaling law预测,当M=2时,DiLoCo在参数达到几十亿以上时,损失会比数据并行更低。这一现象在研究调优的最大模型以及4B和10B模型的训练中都得到了验证。

下图2展示了DiLoCo和Data-Parallel两种算法在不同模型规模(N)下的表现对比。

图(a)显示,随着模型规模从2^25到2^31逐渐增大,DiLoCo(分别在M=1、2、4、8时)和Data-Parallel的评估损失(EvalLoss)都在下降,但DiLoCo的损失下降得更明显,尤其是在M值较大时。

图(b)进一步展示了DiLoCo相对于Data-Parallel的评估损失的百分比差异,可以看出,随着模型规模增加,DiLoCo的损失比Data-Parallel低得越来越多,说明DiLoCo在模型规模扩大时表现更优越。

这个发现有两个独立但相关的部分:

  1. DiLoCo(M=1)表现更好:就像上面提到的,DiLoCo在M=1时,所有模型规模的评估损失都比Data-Parallel低。而且随着模型参数规模N增加,Data-Parallel和DiLoCo(M=1)之间的差距越来越大。

  2. DiLoCo(M≥2)的表现:在大多数模型规模下,DiLoCo在M≥2时评估损失会更高。不过,如果看DiLoCo和Data-Parallel之间的百分比差异(带正负号),会发现随着N增大,DiLoCo相对Data-Parallel的表现越来越好,甚至在M=2、N=2.4亿参数时超过了Data-Parallel。

比如,研究团队在下表4中列出了Data-Parallel和DiLoCo在不同模型规模N下的评估损失。

可以看出,不管M是多少,百分比差异都随着N增加严格减小。

这个趋势在图2中也有展示:随着N增加,DiLoCo的相对评估损失逐渐降低。

研究团队还通过用缩放法则调好的超参数,训练了40亿和100亿参数的模型来验证这一点。

虽然图2显示的是「插值」范围的结果(基于大量实验扫描),但这些发现也可以推广到外推状态,能在M=1或2时用DiLoCo训练出评估损失更低的40亿和100亿参数模型。

下表5展示了用外推超参数训练的结果,展示了在较大规模的4B和10B模型上,DiLoCo和Data-Parallel算法的评估损失对比,表明DiLoCo在更大规模下整体表现出色。


发现2:单副本DiLoCo

当副本数M=1时,DiLoCo在不同模型规模下获得的评估损失都比Data-Parallel低。

下图3展示了当副本数M=1时,DiLoCo与Data-Parallel在不同模型规模(35M、550M、1.3B、2.4B)和全局批大小(以token计,从2^16到2^20)下的评估损失和HellaSwag零样本准确率对比。

图(a)显示DiLoCo的评估损失始终低于Data-Parallel,且差距随着批大小增加而扩大;图(b)表明DiLoCo在HellaSwag零样本准确率上也优于Data-Parallel,趋势相似。

在几乎所有情况下,在M=1时,DiLoCo不仅评估损失更低,下游任务的零样本准确率也比Data-Parallel高。

而且,DiLoCo(M=1)的表现对批大小(batch size)的稳定性更强:把批大小翻倍或翻四倍,对Data-Parallel的性能影响很大,但对DiLoCo(M=1)几乎没啥影响,图3里画得很清楚。


发现3:批大小对性能的影响

DiLoCo提高了最佳批大小,而且最佳全局批大小随着副本数M的增加而变大。这意味着DiLoCo相比Data-Parallel改善了横向扩展能力。

虽然DiLoCo在批大小M>1时,挑选所有超参数中最好的实验结果,评估损失往往略逊一筹,但它在批大小方面的表现显著提升。

Data-Parallel和DiLoCo(M=1)在小批时表现都不错,但随着批大小增加,Data-Parallel的性能下降很快。

相比之下,不管批大小M是多少,DiLoCo的表现对批大小都稳定得多。

下图4展示了评估损失的例子,结果表明,对于所有M值,DiLoCo的最佳批大小都比Data-Parallel更大,且随着M的增加,DiLoCo的最佳批大小进一步增大。

例如,在550M模型中,Data-Parallel的评估损失在批大小较小时最低,而DiLoCo在批大小更大时表现更优,类似趋势在1.3B和2.4B模型中也成立。

下图5展示了在HellaSwag数据集上的零样本准确率。结果显示即使在较小的模型规模下,DiLoCo在M=2时也能在更大的全局批大小下实现更高的准确率。

例如在550M模型中,DiLoCo的准确率曲线在批大小增加时优于Data-Parallel;1.3B和2.4B模型也表现出类似趋势。


发现4:外部学习率

最佳外部学习率基本上与模型规模N无关,但会随着副本数M的变化而变化。

一个重要结果是,DiLoCo在水平扩展上更自然。在所有情况下,token预算D,只跟模型规模N有关。这意味着如果用4倍大的批大小,训练步数会减少到1/4。

对DiLoCo来说,这依然能保持不错的性能,还能一次性用更多资源,缩短总训练时间。而Data-Parallel似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。

下图6展示了理想的训练时间(wall-clock time),模拟不同网络带宽下的情况。

可以看到,DiLoCo对较大批大小的容忍度使其能够显著更快地实现与Data-Parallel相当的性能损失,而且在低带宽设置中这种效果更为明显。


发现5:外部学习率

如下图7所示,对于足够大的模型(N≥3.35亿参数),每个M的最佳η是固定的。M越大,η似乎也越大。这跟之前联邦学习的研究一致:外层学习率应该随着客户端数量增加而增加。

实际上,外部学习率仅取决于DiLoCo模型的数量以及同步的频率。

也就是说,虽然最优的内层学习率会随模型规模N变化,但DiLoCo的最优外层学习率η不依赖N,只跟M有关。

DiLoCo同样有助于解决过度训练的问题!

过度训练可能会相当昂贵,但是增加了批大小并减少了通信量意味着,通常可以在相同的时间内用DiLoCo进行4倍的过度训练(OT),而使用数据并行训练只能进行1倍的过度训练。

论文中还有更多内容。其中包括Scaling law本身,以及甚至提供了预测最优超参数的方法。

Scaling law表明,对于参数超过20亿的模型,使用2个模型的DiLoCo优于数据并行方法

更多实验细节和内容,请参阅原文。

Chinchilla将死?AI 3万亿美元的岔路

DiLoCo使得调整超参数和训练模型变得更加简单。但问题在于,AI模型本身「换汤不换药」——还是Chinchilla那一套。

毕竟,过去的预训练Scaling Law已进入尾声,而新的AI Scaling Law与训练无关。

如今,随着新型「推理模型」的兴起,一个问题浮出水面:如果Chinchilla死了,AI未来会怎样?

大约5年前,OpenAI研究员发现,将更多的算力、数据投入到大规模训练中,可以显著提升AI模型的性能。

几年后,谷歌研究人员更进一步,通过构建名为「Chinchilla」的模型证明,增加数据量能带来更好的效果。

这种「计算+数据」的组合催生了如今的巨型模型,比如GPT-4。

论文地址:https://arxiv.org/pdf/2203.15556

然而,这种策略的成功依赖于巨大的前期投入。

海量数据被塞进复杂且耗能的预训练过程,科技大厂疯狂建造数据中心,塞满了英伟达GPU。

但问题来了:这种砸钱砸数据的模式,还能走多远?

巴克莱资本的顶级分析师Ross Sandler指出,未来可能面临两种截然不同的情景:

一是,「Chinchilla」继续主导,巨额算力和数据投入持续攀升;

二是,「停滞」替代方案,新型技术和模型以更少的资源实现更强性能。

这两种路径的资本支出差距高达3万亿美元以上,足以影响整个行业的走向。


「推理模型」崛起

推动这一潜在变革的,是「推理模型」的兴起。

OpenAI的o1、o3、DeepSeek R1、谷歌Gemini 2.0 Flash Thinking等新模型,采用了一种名为「测试时计算」(test-time compute)的技术。

这种方法将复杂查询分解为小任务,逐一处理,不再依赖长时间的预训练。

相较于传统模型,推理模型可能响应稍慢,但它们输出更准确,运行成本也更低。

更重要的是,它们摆脱了对大规模预训练的依赖。

DeepSeek R1甚至展示了一种可能:开源推理模型能在短时间内实现性能飞跃。

这意味着,AI公司可能不再需要花费18-24个月和巨资去打造下一个「巨无霸」模型。

此外,混合专家模型(MoE)也成为被广泛采用的技术,通过训练多个小型「专家」模型,让它们与大模型协同工作,只在需要时调用部分算力。

这种方式,一步降低了基础设施需求。


Chinchilla何去何从?

过去五年,Chinchilla策略推动了AI供应链的繁荣,许多公司股价因此飙升。

但如今,它的可持续性正受到质疑。

巴克莱分析师指出,「随着投入成本激增,比如一次预训练耗资100亿美元,性能增益却可能越来越小,这种模式的性价比正在下降」。

更严峻的是,训练数据可能正在枯竭。

高质量数据的供应有限,而AI对数据的「胃口」却越来越大。如果没有足够的「食物」,Chinchilla还能活多久?

甚至,业内一些大佬预测,像OpenAI这样的公司,可能会在GPT-5之后停止无休止的规模Scaling。

面对数据枯竭,AI行业将希望寄托于「合成数据」。研究者认为,这种「自给自足」的反馈循环能让模型不断自我进化,推动技术迈向新高度。

Chinchilla们本质上可以通过「自我喂养」来生存。

「如果AI行业在合成数据和递归自我改进方面取得突破,那么我们将重新走上Chinchilla scaling路径,计算需求将继续迅速上升」。

Chinchilla死了吗?这个问题,AI市场会给出最终答案。

如果推理模型、MoE技术成熟,AI可能走向轻量化,高效率的未来,数万亿美金的基础设施投资,或许不再必要。

但,如果「合成数据」让Chinchilla重焕生机,算力竞赛将卷土重来。

无论哪种未来到来,AI的演进都在重塑整个世界。

参考资料:

https://arxiv.org/pdf/2503.09799

https://x.com/MatharyCharles/status/1900593694216253827

https://www.businessinsider.com/ai-chinchilla-openai-google-anthropic-compute-demand-capex-scaling-laws-2025-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国队获U23亚洲杯亚军,球员评分:2人满分,5人优秀,2人不及格

中国队获U23亚洲杯亚军,球员评分:2人满分,5人优秀,2人不及格

球场没跑道
2026-01-25 01:52:11
布鲁克林手撕爹妈愚蠢至极,岳父大人的狠毒用心,他是一点看不懂

布鲁克林手撕爹妈愚蠢至极,岳父大人的狠毒用心,他是一点看不懂

情感大头说说
2026-01-25 07:05:56
三年下水15艘,八艘093B导弹核潜艇,印媒:超过中国30年建造数量

三年下水15艘,八艘093B导弹核潜艇,印媒:超过中国30年建造数量

董董历史烩
2026-01-25 16:49:50
载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

南权先生
2026-01-23 15:42:38
案例:复旦博士姜文华判处死刑,女学生曝光其习惯,有一点很奇怪

案例:复旦博士姜文华判处死刑,女学生曝光其习惯,有一点很奇怪

清茶浅谈
2025-01-18 15:14:28
郎平也没想到,曾经的队长曹慧英,如今已成富婆坐拥一座北京大厦

郎平也没想到,曾经的队长曹慧英,如今已成富婆坐拥一座北京大厦

墨印斋
2026-01-06 14:29:49
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
5499!iPhone Air 一夜闪崩,等等党还是赢了

5499!iPhone Air 一夜闪崩,等等党还是赢了

黑猫科技迷
2026-01-24 22:39:23
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
5万吨镍矿船驶往中国途中沉没

5万吨镍矿船驶往中国途中沉没

财闻
2026-01-24 21:09:14
王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

奥拜尔
2026-01-24 23:43:02
1月24日,人社部部长最新表态,社保养老金迎来5个好消息

1月24日,人社部部长最新表态,社保养老金迎来5个好消息

财话连篇
2026-01-25 10:31:23
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
0:4输给日本,天才前锋停球失误三次,决赛 我们练的到底是什么。

0:4输给日本,天才前锋停球失误三次,决赛 我们练的到底是什么。

冷桂零落
2026-01-25 19:18:41
中国足坛2026年迎来首位大牌巨星!曾是巴西队主力,已官宣确认

中国足坛2026年迎来首位大牌巨星!曾是巴西队主力,已官宣确认

篮球看比赛
2026-01-25 11:16:08
贵州省管干部任前公示

贵州省管干部任前公示

贵阳网
2026-01-25 17:27:32
1959年的总参谋长之争:林彪那句不合适,藏着最沉的战友情

1959年的总参谋长之争:林彪那句不合适,藏着最沉的战友情

金麦趣闻故事
2025-12-14 12:35:31
0:4输给日本,王钰栋踢丢两次单刀,李昊扑了7个还是输了。

0:4输给日本,王钰栋踢丢两次单刀,李昊扑了7个还是输了。

晚雾空青
2026-01-25 18:56:03
2018年,山东女子50万买英国精子生3娃,8年后现状曝光,她后悔吗

2018年,山东女子50万买英国精子生3娃,8年后现状曝光,她后悔吗

就一点
2026-01-23 23:02:17
不生孩子的底层,和正在“接盘”的中产

不生孩子的底层,和正在“接盘”的中产

戗词夺理
2026-01-23 11:09:24
2026-01-25 19:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14409文章数 66527关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
本地
教育
家居
公开课

艺术要闻

138.8米!昆山西部新地标封顶!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

教育要闻

牢A的讲述,让陪读妈妈、女留学生,以及这类家庭都出一身冷汗!

家居要闻

在家度假 160平南洋混搭宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版