网易首页 > 网易号 > 正文 申请入驻

52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解

0
分享至

新智元报道

编辑:英智

【新智元导读】大模型之战烽火正酣,谷歌Gemini 2.5 Pro却强势逆袭!Gemini Flash预训练负责人亲自揭秘,深挖Gemini预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

谷歌凭借Gemini 2.5 Pro在激烈的大模型竞争中一举翻盘。

近日,Geimini Flash预训练负责人Vlad Feinberg在普林斯顿大学分享了相关内容。

他深入分析了Gemini预训练的方法、挑战以及方向,如何在模型大小、算力、数据和推理成本间取得平衡。

PPT链接:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

经典扩展定律

模型训练中,计算资源的合理利用至关重要。

假设有计算资源(C)1000块H100芯片,运行30天,如何训练出最佳的LLM呢?

这就涉及到模型参数量(N)和训练token数量(D)。

对于Transformer,计算量C和N、D之间存在一个近似公式:C≈6×N×D。

MLP是模型的重要组成部分,不同操作的浮点运算量和参数量有所不同。

比如这个操作,训练时的浮点运算量是6BTDF,参数量为DF。

把MLP的多个操作加起来,总训练浮点运算量约为18BTDF,参数数量达到3DF。

注意力机制的计算更为复杂。将注意力机制相关操作的计算量相加,约为12BTSNH=12BT²NH,参数量为4DNH。

将MLP和注意力机制的计算量合并,就能了解整个模型训练时的计算量情况。

Kaplan定律

2020年,Kaplan等人的研究揭示了模型性能与数据量、模型规模和计算量之间的关系。

自回归Transformer模型中,小模型可以用来预测大模型的性能。

模型性能与算力、参数量、数据量之间存在幂律关系。当计算预算增加10倍时,模型参数量应增加5.37倍,数据量增加1.86倍。

这一结论在当时引起了广泛关注,点燃了企业的「军备竞赛」。

Chinchilla(龙猫)

然而,2022年,DeepMind对Kaplan的观点提出了质疑。

Kaplan的研究在每个模型规模下仅运行一次训练,并用中间损失来估计不同token训练步数下的损失。

Chinchilla论文指出,基于单次训练的中间loss点来推断存在缺陷,通过适当的学习率衰减可以获得更好的损失值,只有最终的损失值才是最优的。

论文采用IsoFlops方法,固定浮点运算量预算,同时改变模型规模和训练token数量。

  • 固定总算力C

  • 训练多个不同参数N的模型,对应不同数据量D(C≈6×N×D)

  • 找到loss最低的模型N_opt(C)和D_opt(C)

  • 重复以上步骤,得到不同算力下的最优(N,D)点,并拟合

研究发现,模型参数N和数据量D应以大致相同的速率(幂律指数约为0.5)随算力C增长,这与Kaplan等的结论大相径庭。

这意味着,按Kaplan定律训练的模型,可能存在训练不足的情况,数据太少,会增加模型后续部署和使用的成本。

为了进一步优化模型训练,研究人员尝试了多种方法。通过不同的计算场景和拟合方式,得到了更精确的系数。

混合专家(MoE)模型的扩展定律展现出了独特的优势。与传统模型相比,在相同的活跃参数数量和固定100B token的情况下,MoE 64E模型的性能更优。

然而,MoE模型对token数据的需求量较大,互联网上的可用数据逐渐难以满足其需求,这成为了发展瓶颈。

为了解决数据不足的问题,研究人员将目光投向了更多的数据来源。多模态数据,如音频、视觉、3D 模型、视频等,为模型训练提供了丰富的信息。

合成数据也受到了关注。实际应用中,需要在生成质量与筛选成本之间找到平衡。

实时场景的模型选择

在谷歌的许多应用场景中,如免费的Gemini聊天机器人、AIO、AIM、Vertex AI(用于模型微调、部署)以及AI Studio(提供生成式API)等,推理效率至关重要。

这些应用需要快速给出准确的响应,对模型的推理速度和效率要求极高。

就拿实时应用来说,Astra和Mariner都需要快速响应。

以一个网络交互智能体为例,假设上下文128k,但每次增量只有8k token,解码需要128 token来生成一个动作,并且动作之间的延迟不超过1秒,其中250毫秒还得用于框架搭建、负载均衡等操作。

用Llama3-70B模型和v5e芯片做实验,发现单芯片处理8k token需5.7秒。为了达到0.5秒的API延迟限制,需要搭建4×4 v5e并行。

实时应用中,小模型反而更有优势,如Gemini Flash/Flash-lite。

Chinchilla的扩展方法虽然在模型训练的计算优化上有效,但它忽略了推理成本。

在实际应用中,需要综合考虑训练和推理的成本,找到更合适的模型和数据配置。

推理优化扩展定律

《超越Chinchilla最优:在语言模型扩展定律中考虑推理因素》这篇论文提出了新的推理优化Scaling Laws。

核心思想是,不仅最小化训练loss,而是要综合考虑训练和推理的总计算量,为模型优化提供了新的方向。

按照这些公式,在相同计算量下,与Chinchilla最优策略相比,应该训练更小的模型,并使用更多的数据,因为推理所需的计算量更少。

当然,这也存在新的挑战。

  • 计算资源的非同质性:实际应用中计算资源存在差异,用于推理优化的芯片各不相同,给推理优化带来了困难。

  • 推理量D_inf难以预测:技术进步提高资源利用效率,反而会增加对该资源的需求(杰文斯悖论)。模型质量提升可能会扩大市场,进而影响推理时的token数量D_inf。

  • 拟合效果不佳:不同数据集下,相关参数的拟合效果存在差异。不同token与参数比例的数据子集,拟合得到的 α、β等参数不同,和Chinchilla的拟合结果也有较大差异。

针对这些问题,研究人员采用在数据约束下建模的方法。研究引入新维度,即有意区分数据,提出新的损失函数和数据规模公式,这样训练出来的模型更小,对数据重复的鲁棒性更强。

对于推理token数量的处理,像Llama3模型,有研究指出其8B和70B参数的模型,在训练到15T token后,性能仍呈对数线性提升,即D_inf可视为无穷大。

蒸馏的探索与应用

除了模型大小、数据量和推理成本,知识蒸馏为推理优化扩展带来了新的思路。

知识蒸馏扩展定律公式:

通过调整这些参数,可以优化学生模型的性能。

不过,知识蒸馏在实际应用中也有一些问题,比如趋势影响不明显、部分情况考虑不周全等,但可以通过权重调整等方法进行改进。

从原理上讲,知识蒸馏能降低方差,更好的教师模型能减少偏差,为模型优化提供了新途径。

谷歌Gemini预训练技术对经典扩展定律和推理优化扩展定律都进行了深入研究。

经典扩展定律通过探索模型规模、数据量和计算量之间的关系,不断优化模型训练的资源配置。

推理优化扩展定律针对推理成本和效率问题,综合考虑训练和推理需求,提出新方法,提升模型整体性能。

同时,知识蒸馏等技术的应用也为模型的优化提供了更多的途径。

Vlad Feinberg

Vlad Feinberg毕业于普林斯顿大学计算机科学专业,于加州大学伯克利分校RISE实验室攻读博士学位。

后来,Feinberg加入了一家名为Sisu的初创公司,担任机器学习主管。他曾任职于谷歌研究院的Cerebra项目,目前在谷歌DeepMind工作。

参考资料:

https://x.com/JeffDean/status/1916541851328544883

https://x.com/FeinbergVlad/status/1915848609775685694

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

古史青云啊
2026-03-26 10:14:37
社保基金持股市值居前的重仓股一览

社保基金持股市值居前的重仓股一览

证券时报
2026-03-26 07:34:15
观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

澎湃新闻
2026-03-25 14:56:27
攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

万物知识圈
2026-03-26 15:06:53
缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

凡人侃史
2026-03-26 09:42:15
油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

眼界纵横
2026-03-23 15:48:07
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

遁走的两轮
2026-03-26 14:59:28
“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

妍妍教育日记
2026-03-20 21:33:36
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

新智元
2026-03-25 08:36:09
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

万物知识圈
2026-03-26 15:00:50
为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

TVB的四小花
2026-03-26 13:38:07
2026-03-26 16:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
房产
艺术
旅游

皮衣+裙,高级到炸

教育要闻

2026湖北高职单招工作启动

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

无障碍浏览 进入关怀版