深度长文｜多模态 Scaling Laws 新篇章：Chinchilla 范式已破？数据、模型、算力最优平衡点正在重塑|预训练|计算量|laws|scaling

分享至

人工智能领域，如同物理学曾经历的那样，一度渴望找到普适的“定律”。当 DeepMind 的研究者们在 2022 年揭示了大型语言模型（LLMs）的 Chinchilla Scaling Laws (Hoffmann et al., 2022)[1] 时，整个行业似乎找到了那把衡量算力、模型大小与数据量之间最优关系的“黄金标尺”。这一发现如同灯塔，不仅深刻影响了如 GPT-4[2] 和 Llama 2[3] 等后续众多模型的训练决策，更一度被奉为 AI 算力竞赛中的“能量守恒定律”。

然而，当 AI 的目光不再局限于冰冷的文字，开始拥抱图像、声音乃至更复杂的现实世界信号时，这座看似坚固的灯塔，其光芒是否还能穿透多模态的迷雾？

答案或许是否定的。来自索邦大学与苹果公司的研究者们在今年（严格来说是 2025 年 4 月的预印本）发表的一篇引人瞩目的论文《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025)[4](以下简称“原文”)，通过对 457 个原生多模态模型（NMMs，即从零开始在所有模态上训练的模型）进行广泛的 Scaling Laws 研究，掷地有声地指出：多模态的加入，正在从根本上挑战甚至改写我们对 AI 规模效应的认知。尽管 NMMs 性能的提升同样遵循着与计算量相关的幂律法则，但其内部的最优平衡点、架构选择的效率以及数据策略的核心，已然发生了深刻的范式转移。

这场 AI 界的“定律”撼动，究竟意味着什么？它将如何重塑我们训练、部署乃至构想下一代人工智能的方式？这不仅关乎技术专家和投资人的决策，最终也将影响我们每个人未来与 AI 交互的方式。让我们深入这场风暴的核心，一探究竟。

形似神异：NMMs Scaling 与 LLMs 的同与不同

乍看之下，NMMs 似乎仍在 Chinchilla 的引力范围内运行。Shukor 等人的研究发现，无论是采用早期融合（模型从一开始就处理原始多模态输入）还是晚期融合（类似 LLaVA，连接预训练模块）的 NMMs，其验证损失（L）随着总计算量（C）的增加而下降的速率（指数 c 约为 -0.049），与 GPT-3[5]（c 约为 -0.048）等纯文本 LLMs 惊人地一致（参考原文 Table 3）。这意味着，投入更多算力，模型性能确实会变得更好，这似乎是条“铁律”。

但表面的相似，往往掩盖了内里的波涛汹涌。当我们把目光投向决定模型性能的另外两个关键要素——模型参数量（N）和训练数据量（D）时，分歧开始显现。Chinchilla 定律的核心推论之一是，为了在给定计算预算下达到最优性能，N 和 D 应该大致按等比例扩展。然而，Shukor 等人的研究（参考原文 Table 3）却为密集型 NMMs（特别是早期融合架构）描绘了一幅略有不同的蓝图：模型参数规模 N 对性能的贡献度（对应指数 a=0.526）似乎略微超过了训练数据量 D（对应指数 b=0.473）。

指标 (密集 NMM 早期融合)

N 指数 (a)

D 指数 (b)

结论

Shukor et al. (2025)

模型规模 N 贡献略大于数据量 D (a > b)

Chinchilla (参考)

≈0.34

≈0.28

N 和 D 贡献相对均衡 (或大致等比例增长)

表格说明：对比 Shukor 等人研究中密集型早期融合 NMM 的 Scaling 指数与 Chinchilla 定律的参考值。a 指数反映模型大小 N 对损失降低的贡献，b 指数反映数据量 D 的贡献。

这意味着什么？简单来说，在相同的计算“火力”下，要打造一个性能最优的 NMM，你可能需要一个比 Chinchilla 定律建议的更大一点点的模型，同时配上稍微少一点点的数据组合。

这种差异有多大？这看似微小的调整，在动辄千万美元的训练成本面前，可能直接关系到最终模型的性能上限和研发预算的有效性。遵循这些新的多模态缩放规律进行优化，其潜在回报是巨大的：模拟显示，对于大规模训练预算，单位性能训练成本有望节约高达 33.3% [探索 NMM Scaling Laws[6]]。显然，简单地将 LLM 的训练法则“复制粘贴”到多模态领域，可能已经不再明智。

架构的十字路口：早期融合的效率革命 vs 晚期融合的路径依赖

多模态模型如何融合不同感官信息，一直是架构设计的核心。目前主流的做法，正如我们在 LLaVA[7] 或 Flamingo[8] 等模型的成功所展示的那样，多采用“晚期融合”——将一个强大的预训练视觉编码器（如 CLIP ViT）的输出，“嫁接”到一个预训练 LLM 上。这种架构之所以能迅速占领市场，很大程度上是因为它允许团队“站在巨人的肩膀上”，便捷地利用现有 LLM 成果和庞大的预训练模型库[9]，这在争分夺秒的商业竞争中无疑是巨大的诱惑，其背后的工程与战略考量[10]已被广泛讨论。但这看似明智的捷径，也可能让它们背负了长期的效率“包袱”。

Shukor 等人的研究则揭示了另一条路径的潜力。他们发现，当模型从零开始原生训练时，“早期融合”——即模型从一开始就统一处理文本 token 和图像 patch 等原始输入，几乎没有独立的单模态处理环节——展现出了惊人的效率优势。

架构对比 (基于原文 Fig 1, 5)

最优参数量 (N)

训练速度

显存占用

早期融合 (Early Fusion)更少更快更低

晚期融合 (Late Fusion)

更慢

更高

表格说明：对比早期融合与晚期融合 NMMs 在达到计算最优时的资源效率。数据趋势来自 Shukor et al. (2025) 的 Fig 1 (右图) 和 Fig 5。

原文的 Fig 1 右图清晰地揭示了这一点：在相同的计算预算 C 下，达到最低损失（最优性能）的早期融合模型，其所需的参数量 N 显著低于晚期融合模型。这意味着早期融合拥有更高的“参数效率”——用更少的参数办成同样的事。这还没完，Fig 5 的数据显示，早期融合模型训练起来速度更快，消耗的显存也更少。

这背后可能的原因是，早期融合允许信息在模型的更底层、更早的阶段进行交互，从而更有效地学习跨模态的关联，避免了晚期融合中可能存在的特征空间“鸿沟”和信息传递损耗。

这种效率差异带来的实际价值不容小觑。想象一家公司要开发一款边缘 AI[11] 产品，比如智能眼镜的 AI 助手，模型大小和响应速度是关键。采用早期融合架构，或许用一个 50 亿参数的模型就能达到晚期融合 70 亿参数模型的效果，这直接关系到芯片成本、功耗控制和用户能否获得流畅的交互体验。一个鲜明的例证是 Meta 最新发布的 Chameleon 系列模型[12]。它采用了早期融合架构，并且技术报告显示[13]，在同等规模下，其单卡吞吐量是晚期融合模型的 2.1 倍，收敛速度也快了 58%。

当然，晚期融合的“路径依赖”依然强大。它允许团队快速利用现有的、投入巨资预训练的 LLM。但 Shukor 等人的研究提醒我们，这种便利可能伴随着长期的效率“包袱”。选择早期融合，虽然可能意味着更彻底的重构，但它指向的是一条构建更原生、更高效、可能也更“智能”的多模态系统的新路径。这是否会改变未来基础模型的技术路线图？特别是对于那些没有历史包袱、寻求差异化竞争的初创公司而言，早期融合是否提供了一个难得的“换道超车”机会？

稀疏性的核爆：MoE 如何彻底改写 NMM Scaling 规则

如果说早期融合只是对 Scaling Laws 进行了修正，那么混合专家（Mixture-of-Experts, MoE）架构的引入，则近乎一场“核爆”，彻底颠覆了游戏规则。

MoE 的核心思想并不复杂：将一个大模型拆分成多个相对较小的“专家”网络，并训练一个“路由器”来决定每个输入（token）应该由哪些专家来处理。这样，在推理时，只需要激活一小部分专家，就能达到甚至超越同等参数量密集模型的性能，同时大幅降低计算成本。Mistral 的 Mixtral 8x7B[14] 模型就是 MoE 在 LLM 领域成功的典范。

Shukor 等人将 MoE 应用于早期融合 NMMs，结果令人震惊（见原文 Fig 9, 10）。在相同的推理成本（活跃参数量）下，MoE NMMs 的性能显著优于对应的密集模型，尤其是在中低计算量区间，优势更为明显。

但更具颠覆性的是 MoE 对 Scaling Laws 本身的改写。还记得密集模型中，模型大小 N 和数据量 D 的贡献度大致相当，甚至 N 略占优势吗？在 MoE NMMs 这里，情况发生了 180 度大转弯。原文 Table 3 的数据显示，对于稀疏 NMMs，增加训练数据量 D 对性能提升的贡献度（指数 b=0.656）远远超过了增加活跃参数量 N（指数 a=0.361）！

模型类型 (基于原文 Table 3)

N 指数 (a)

D 指数 (b)

结论

MoE NMM (早期融合)

数据量 D 贡献远大于模型规模 N (b >> a)

Dense NMM (早期融合)

模型规模 N 贡献略大于数据量 D (a > b)

表格说明：对比 MoE NMM 与密集 NMM 在 Scaling 指数上的显著差异。b 远大于 a 表明数据扩展对 MoE 模型性能提升的极端重要性。

这意味着什么？数据为王！对于 MoE NMMs 而言，想要让模型更强大，最有效的手段不再是（或者说远不止是）增加模型的活跃参数，而是疯狂地喂给它更多、更好、更多样化的多模态数据。

这一发现堪称训练范式的革命。它意味着资源的重心需要从算力-模型规模的军备竞赛，向数据获取、数据处理、数据质量的护城河构建迁移。这无疑对那些掌握海量原生多模态数据的巨头，如拥有 YouTube 和海量网页图文的 Google、坐拥 Instagram 和 Facebook 无尽图片视频的 Meta，构成了巨大的利好。正如一些分析所指出的[15]，MoE NMMs 对数据的渴求，可能使得 AI 的竞争在本质上进一步演变成数据的竞争。

当然，MoE 也并非“免费午餐”。训练 MoE 模型本身就面临诸多挑战，例如训练不稳定、专家间的负载均衡、以及巨大的通信开销等问题，这些都在近期的研究中[16]有详细讨论。而将 MoE 应用于多模态场景，挑战更是指数级增加。不同模态的数据分布差异巨大（比如一段视频包含的视觉信息远超其对应文字描述），如何设计路由机制，确保专家既能处理特定模态又能有效协作，如何避免模态失衡导致的“专家饿死”或“专家撑死”？这些都是亟待解决的难题。例如，面对多模态场景下常见的专家负载失衡问题——当图像 token 远超文本时，部分专家可能“饿死”或“撑死”——Google 的 LIMoE 研究[17]就探索了通过熵正则化等手段强制分配多样性，以维持训练稳定。为了应对这些挑战，领先的 AI 实验室正在积极开发如 Expert Choice Routing[18]（专家选择路由）和动态容量缓冲[19]等创新技术。

尽管挑战重重，MoE 为多模态 Scaling Laws 指明的“数据优先”方向，无疑为我们理解和构建更强大的 AI 系统打开了全新的想象空间。

数据的炼金术：模态组合与配比的微妙平衡艺术

既然数据如此重要，那么下一个问题自然是：什么样的多模态数据组合才是最优的“炼金配方”？

Shukor 等人的研究也初步触及了这个问题。他们发现，NMMs 对不同类型数据的“消化效率”是不同的。从原文 Table 3 和 Fig 25 可以看到，模型在处理图文配对数据（Image-Caption）时，性能随计算量提升的速度（c 指数绝对值更大）似乎要快于处理图文交错的网页文档（Interleaved）和纯文本数据（Text-only）。这或许意味着，对于某些侧重图文理解的任务，加大图文对数据的比例可能更有效。

更有趣的是，改变不同类型数据的混合比例，会直接影响整体的 Scaling 曲线（见原文 Fig 4）。例如，当增加纯文本和交叉文档的比例时（从 45-45-10 变为 20-40-40），早期融合架构相对于晚期融合的优势似乎会扩大（见原文 Fig 15, 16）。

这些初步的发现指向了一个明确的结论：高效训练 NMMs，不能再搞“大水漫灌”式的数据投喂，而要走向“精准滴灌”的数据策略。

但这门“数据炼金术”的复杂性也远超想象。首先，如何定义不同模态数据的“等效计算量”？一分钟的视频，相当于多少文字，或者多少张图片？目前业界尚无统一标准，不同的研究[20]给出的换算比例可能相差数倍。其次，数据的质量、标注的准确性、内容的多样性、乃至数据来源的合规性，都可能比数据量本身更重要。最后，最优的数据配比很可能不是固定的，而是与目标任务（视觉问答 vs 图像生成）、模型架构（早期/晚期融合 vs MoE）、甚至训练阶段都息息相关。例如，Anthropic 在训练 Claude 3[21] 时就采用了渐进式策略，根据公开的最佳实践分享[22]，他们在后期增加了视频数据和特定领域数据的比例。

目前，尽管 Google Gemini [Google AI Blog on Gemini[23]]、OpenAI GPT-4V [OpenAI GPT-4 Research[24]] 等顶尖模型都声称使用了海量的多模态数据进行训练，但具体的混合比例和策展策略仍然是各家的核心机密。探索并建立一套科学的多模态数据价值评估体系和动态混合策略，将是未来 NMMs 发展的关键胜负手。一些研究甚至开始探讨数据混合定律[25]，试图量化不同领域数据的最佳配比。

结论：告别单一法则，拥抱多模态 Scaling 新纪元

Chinchilla Scaling Laws 无疑是 AI 发展史上的一座里程碑，它为大型语言模型的训练提供了宝贵的指导。但将其奉为放之四海而皆准的绝对真理，在多模态浪潮汹涌而来的今天，已显得刻舟求剑。

Shukor 等人的研究，连同我们补充的行业观察和案例，共同描绘了一幅更复杂、更动态、也更激动人心的 NMM Scaling 新图景：

平衡点漂移：NMMs 的最优 N/D 平衡点相较于 LLMs 发生了微妙偏移。
架构定成败：早期融合以其原生效率优势崭露头角，挑战着晚期融合的主流地位。
MoE 颠覆：稀疏性彻底改变了游戏规则，将数据推向了前所未有的核心位置。
数据炼金：模态组合与数据配比成为新的优化维度，需要科学的方法论指导。

这一切意味着什么？

对于AGI 的探索者而言，通往通用智能的道路必然是多模态的。精准理解并掌握 NMMs 的 Scaling Laws，是构建能够真正理解和交互于复杂物理世界的智能系统的基石。正如 Yann LeCun 反复强调的那样[26]，仅仅依赖文本预测的自回归模型可能无法触及真正的智能，我们需要能够从多感官数据中学习世界模型的架构，而早期融合和 MoE 正是朝这个方向迈出的重要一步。同样，Ilya Sutskever 也曾暗示[27]，通过多模态扩展 Transformer 可能自然演化至 AGI，但其关键在于计算效率和数据策略的革新。

对于产业界的决策者（管理者、投资人、工程师）而言，这些新认知直接关系到真金白银的投入和战略方向的选择。是继续沿用晚期融合的“捷径”，还是拥抱早期融合的“原生效率”？是押注 MoE 的巨大潜力，并准备好应对其对数据的极致渴求，还是选择更成熟的密集模型？如何构建自己的数据护城河，并制定动态的数据混合策略？这些问题没有标准答案，但理解 Scaling Laws 的演变，无疑是做出明智决策的前提。这场由 Scaling Laws 演进驱动的竞争，正在重塑科技巨头、AI 实验室和初创公司之间的力量格局，这一点在近期的行业分析中[28]已有所体现。

未来已来，只是分布不均。多模态 Scaling Laws 的研究才刚刚开始，视频、音频、乃至更广泛的传感器数据将带来更多变量和复杂性，相关挑战已被广泛讨论[29]。但方向已经明确：告别单一、静态的法则，拥抱一个更精细、动态、数据驱动的多模态 Scaling 新纪元，这正是通往更强大、更通用人工智能的必由之路。

那么，你如何看待这些 NMM Scaling Laws 的新发现？它们对你所在的领域或研究方向有何启发？在你的实践中，是否也观察到了类似的现象或遇到了相关的挑战？欢迎在评论区留下你的洞见，与我们一同绘制多模态 Scaling 新时代的蓝图！

参考资料

Chinchilla Scaling Laws (Hoffmann et al., 2022): https://arxiv.org/abs/2203.15556

GPT-4: https://klu.ai/blog/gpt-4-llm

Llama 2: https://ai.meta.com/llama/

《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025): https://arxiv.org/abs/2504.07951

[5]

GPT-3: https://arxiv.org/abs/2005.14165

[6]

[探索 NMM Scaling Laws: https://arxiv.org/abs/2504.07951

[7]

LLaVA: https://arxiv.org/abs/2304.08485

[8]

Flamingo: https://arxiv.org/abs/2204.14198

[9]

预训练模型库: https://huggingface.co/models

[10]

背后的工程与战略考量: https://aicompetence.org/data-fusion-in-multimodal-ai/

[11]

边缘 AI: https://www.ibm.com/cloud/learn/edge-ai

[12]

Chameleon 系列模型: https://ai.meta.com/blog/chameleon-foundation-models-early-fusion-token-based-mixed-modal/

[13]

技术报告显示: https://techxplore.com/news/2024-05-meta-chameleon-early-fusion-multimodal.html

[14]

Mixtral 8x7B: https://arxiv.org/abs/2401.04088

[15]

一些分析所指出的: https://zilliz.com/blog/multimodal-pipelines-for-ai-applications

[16]

近期的研究中: https://openreview.net/forum?id=y1iU5czYpE

[17]

Google 的 LIMoE 研究: https://arxiv.org/abs/2206.02770

Expert Choice Routing: https://research.google/blog/mixture-of-experts-with-expert-choice-routing/

动态容量缓冲: https://labelyourdata.com/articles/mixture-of-experts-llm

不同的研究: https://arxiv.org/abs/2410.13638

[21]

Claude 3: https://www.anthropic.com/news/claude-3-family

[22]

公开的最佳实践分享: https://aws.amazon.com/blogs/machine-learning/best-practices-and-lessons-for-fine-tuning-anthropics-claude-3-haiku-on-amazon-bedrock/

[23]

[Google AI Blog on Gemini: https://ai.googleblog.com/2023/12/our-largest-and-most-capable-ai-model.html

[24]

[OpenAI GPT-4 Research: https://openai.com/research/gpt-4

[25]

数据混合定律: https://arxiv.org/abs/2403.16952

[26]

反复强调的那样: https://www.ctol.digital/news/lecun-challenges-agi-hype-true-artificial-general-intelligence-years-away/

[27]

也曾暗示: https://www.reddit.com/r/singularity/comments/17xn0s5/openai_cofounder_and_chief_scientist_says_that/

[28]

近期的行业分析中: https://techcrunch.com/2024/11/20/ai-scaling-laws-are-showing-diminishing-returns-forcing-ai-labs-to-change-course/

[29]

相关挑战已被广泛讨论: https://milvus.io/ai-quick-reference/what-are-the-challenges-in-building-multimodal-ai-systems

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.