网易首页 > 网易号 > 正文 申请入驻

深度长文|多模态 Scaling Laws 新篇章:Chinchilla 范式已破?数据、模型、算力最优平衡点正在重塑

0
分享至

人工智能领域,如同物理学曾经历的那样,一度渴望找到普适的“定律”。当 DeepMind 的研究者们在 2022 年揭示了大型语言模型(LLMs)的 Chinchilla Scaling Laws (Hoffmann et al., 2022)[1] 时,整个行业似乎找到了那把衡量算力、模型大小与数据量之间最优关系的“黄金标尺”。这一发现如同灯塔,不仅深刻影响了如 GPT-4[2] 和 Llama 2[3] 等后续众多模型的训练决策,更一度被奉为 AI 算力竞赛中的“能量守恒定律”。

然而,当 AI 的目光不再局限于冰冷的文字,开始拥抱图像、声音乃至更复杂的现实世界信号时,这座看似坚固的灯塔,其光芒是否还能穿透多模态的迷雾?

答案或许是否定的。来自索邦大学与苹果公司的研究者们在今年(严格来说是 2025 年 4 月的预印本)发表的一篇引人瞩目的论文 《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025)[4](以下简称“原文”),通过对 457 个原生多模态模型(NMMs,即从零开始在所有模态上训练的模型)进行广泛的 Scaling Laws 研究,掷地有声地指出:多模态的加入,正在从根本上挑战甚至改写我们对 AI 规模效应的认知。尽管 NMMs 性能的提升同样遵循着与计算量相关的幂律法则,但其内部的最优平衡点、架构选择的效率以及数据策略的核心,已然发生了深刻的范式转移。

这场 AI 界的“定律”撼动,究竟意味着什么?它将如何重塑我们训练、部署乃至构想下一代人工智能的方式?这不仅关乎技术专家和投资人的决策,最终也将影响我们每个人未来与 AI 交互的方式。让我们深入这场风暴的核心,一探究竟。

形似神异:NMMs Scaling 与 LLMs 的同与不同

乍看之下,NMMs 似乎仍在 Chinchilla 的引力范围内运行。Shukor 等人的研究发现,无论是采用早期融合(模型从一开始就处理原始多模态输入)还是晚期融合(类似 LLaVA,连接预训练模块)的 NMMs,其验证损失(L)随着总计算量(C)的增加而下降的速率(指数 c 约为 -0.049),与 GPT-3[5](c 约为 -0.048)等纯文本 LLMs 惊人地一致(参考原文 Table 3)。这意味着,投入更多算力,模型性能确实会变得更好,这似乎是条“铁律”。

但表面的相似,往往掩盖了内里的波涛汹涌。当我们把目光投向决定模型性能的另外两个关键要素——模型参数量(N)和训练数据量(D)时,分歧开始显现。Chinchilla 定律的核心推论之一是,为了在给定计算预算下达到最优性能,N 和 D 应该大致按等比例扩展。然而,Shukor 等人的研究(参考原文 Table 3)却为密集型 NMMs(特别是早期融合架构)描绘了一幅略有不同的蓝图:模型参数规模 N 对性能的贡献度(对应指数 a=0.526)似乎略微超过了训练数据量 D(对应指数 b=0.473)

指标 (密集 NMM 早期融合)

N 指数 (a)

D 指数 (b)

结论

Shukor et al. (2025)

模型规模 N 贡献略大于数据量 D (a > b)

Chinchilla (参考)

≈0.34

≈0.28

N 和 D 贡献相对均衡 (或大致等比例增长)

表格说明:对比 Shukor 等人研究中密集型早期融合 NMM 的 Scaling 指数与 Chinchilla 定律的参考值。a 指数反映模型大小 N 对损失降低的贡献,b 指数反映数据量 D 的贡献。

这意味着什么?简单来说,在相同的计算“火力”下,要打造一个性能最优的 NMM,你可能需要一个比 Chinchilla 定律建议的更大一点点的模型,同时配上稍微少一点点的数据组合。

这种差异有多大?这看似微小的调整,在动辄千万美元的训练成本面前,可能直接关系到最终模型的性能上限和研发预算的有效性。遵循这些新的多模态缩放规律进行优化,其潜在回报是巨大的:模拟显示,对于大规模训练预算,单位性能训练成本有望节约高达 33.3% [探索 NMM Scaling Laws[6]]。显然,简单地将 LLM 的训练法则“复制粘贴”到多模态领域,可能已经不再明智。

架构的十字路口:早期融合的效率革命 vs 晚期融合的路径依赖

多模态模型如何融合不同感官信息,一直是架构设计的核心。目前主流的做法,正如我们在 LLaVA[7] 或 Flamingo[8] 等模型的成功所展示的那样,多采用“晚期融合”——将一个强大的预训练视觉编码器(如 CLIP ViT)的输出,“嫁接”到一个预训练 LLM 上。这种架构之所以能迅速占领市场,很大程度上是因为它允许团队“站在巨人的肩膀上”,便捷地利用现有 LLM 成果和庞大的预训练模型库[9],这在争分夺秒的商业竞争中无疑是巨大的诱惑,其背后的工程与战略考量[10]已被广泛讨论。但这看似明智的捷径,也可能让它们背负了长期的效率“包袱”。

Shukor 等人的研究则揭示了另一条路径的潜力。他们发现,当模型从零开始原生训练时,“早期融合”——即模型从一开始就统一处理文本 token 和图像 patch 等原始输入,几乎没有独立的单模态处理环节——展现出了惊人的效率优势。

架构对比 (基于原文 Fig 1, 5)

最优参数量 (N)

训练速度

显存占用

早期融合 (Early Fusion)更少更快更低

晚期融合 (Late Fusion)

更慢

更高

表格说明:对比早期融合与晚期融合 NMMs 在达到计算最优时的资源效率。数据趋势来自 Shukor et al. (2025) 的 Fig 1 (右图) 和 Fig 5。

原文的 Fig 1 右图清晰地揭示了这一点:在相同的计算预算 C 下,达到最低损失(最优性能)的早期融合模型,其所需的参数量 N 显著低于晚期融合模型。这意味着早期融合拥有更高的“参数效率”——用更少的参数办成同样的事。这还没完,Fig 5 的数据显示,早期融合模型训练起来速度更快,消耗的显存也更少

这背后可能的原因是,早期融合允许信息在模型的更底层、更早的阶段进行交互,从而更有效地学习跨模态的关联,避免了晚期融合中可能存在的特征空间“鸿沟”和信息传递损耗。

这种效率差异带来的实际价值不容小觑。想象一家公司要开发一款边缘 AI[11] 产品,比如智能眼镜的 AI 助手,模型大小和响应速度是关键。采用早期融合架构,或许用一个 50 亿参数的模型就能达到晚期融合 70 亿参数模型的效果,这直接关系到芯片成本、功耗控制和用户能否获得流畅的交互体验。一个鲜明的例证是 Meta 最新发布的 Chameleon 系列模型[12]。它采用了早期融合架构,并且技术报告显示[13],在同等规模下,其单卡吞吐量是晚期融合模型的 2.1 倍,收敛速度也快了 58%。

当然,晚期融合的“路径依赖”依然强大。它允许团队快速利用现有的、投入巨资预训练的 LLM。但 Shukor 等人的研究提醒我们,这种便利可能伴随着长期的效率“包袱”。选择早期融合,虽然可能意味着更彻底的重构,但它指向的是一条构建更原生、更高效、可能也更“智能”的多模态系统的新路径。这是否会改变未来基础模型的技术路线图?特别是对于那些没有历史包袱、寻求差异化竞争的初创公司而言,早期融合是否提供了一个难得的“换道超车”机会?

稀疏性的核爆:MoE 如何彻底改写 NMM Scaling 规则

如果说早期融合只是对 Scaling Laws 进行了修正,那么混合专家(Mixture-of-Experts, MoE)架构的引入,则近乎一场“核爆”,彻底颠覆了游戏规则。

MoE 的核心思想并不复杂:将一个大模型拆分成多个相对较小的“专家”网络,并训练一个“路由器”来决定每个输入(token)应该由哪些专家来处理。这样,在推理时,只需要激活一小部分专家,就能达到甚至超越同等参数量密集模型的性能,同时大幅降低计算成本。Mistral 的 Mixtral 8x7B[14] 模型就是 MoE 在 LLM 领域成功的典范。

Shukor 等人将 MoE 应用于早期融合 NMMs,结果令人震惊(见原文 Fig 9, 10)。在相同的推理成本(活跃参数量)下,MoE NMMs 的性能显著优于对应的密集模型,尤其是在中低计算量区间,优势更为明显。

但更具颠覆性的是 MoE 对 Scaling Laws 本身的改写。还记得密集模型中,模型大小 N 和数据量 D 的贡献度大致相当,甚至 N 略占优势吗?在 MoE NMMs 这里,情况发生了 180 度大转弯。原文 Table 3 的数据显示,对于稀疏 NMMs,增加训练数据量 D 对性能提升的贡献度(指数 b=0.656)远远超过了增加活跃参数量 N(指数 a=0.361)

模型类型 (基于原文 Table 3)

N 指数 (a)

D 指数 (b)

结论

MoE NMM (早期融合)

数据量 D 贡献远大于模型规模 N (b >> a)

Dense NMM (早期融合)

模型规模 N 贡献略大于数据量 D (a > b)

表格说明:对比 MoE NMM 与密集 NMM 在 Scaling 指数上的显著差异。b 远大于 a 表明数据扩展对 MoE 模型性能提升的极端重要性。

这意味着什么?数据为王!对于 MoE NMMs 而言,想要让模型更强大,最有效的手段不再是(或者说远不止是)增加模型的活跃参数,而是疯狂地喂给它更多、更好、更多样化的多模态数据

这一发现堪称训练范式的革命。它意味着资源的重心需要从算力-模型规模的军备竞赛,向数据获取、数据处理、数据质量的护城河构建迁移。这无疑对那些掌握海量原生多模态数据的巨头,如拥有 YouTube 和海量网页图文的 Google、坐拥 Instagram 和 Facebook 无尽图片视频的 Meta,构成了巨大的利好。正如一些分析所指出的[15],MoE NMMs 对数据的渴求,可能使得 AI 的竞争在本质上进一步演变成数据的竞争。

当然,MoE 也并非“免费午餐”。训练 MoE 模型本身就面临诸多挑战,例如训练不稳定、专家间的负载均衡、以及巨大的通信开销等问题,这些都在近期的研究中[16]有详细讨论。而将 MoE 应用于多模态场景,挑战更是指数级增加。不同模态的数据分布差异巨大(比如一段视频包含的视觉信息远超其对应文字描述),如何设计路由机制,确保专家既能处理特定模态又能有效协作,如何避免模态失衡导致的“专家饿死”或“专家撑死”?这些都是亟待解决的难题。例如,面对多模态场景下常见的专家负载失衡问题——当图像 token 远超文本时,部分专家可能“饿死”或“撑死”——Google 的 LIMoE 研究[17]就探索了通过熵正则化等手段强制分配多样性,以维持训练稳定。为了应对这些挑战,领先的 AI 实验室正在积极开发如 Expert Choice Routing[18](专家选择路由)和动态容量缓冲[19]等创新技术。

尽管挑战重重,MoE 为多模态 Scaling Laws 指明的“数据优先”方向,无疑为我们理解和构建更强大的 AI 系统打开了全新的想象空间。

数据的炼金术:模态组合与配比的微妙平衡艺术

既然数据如此重要,那么下一个问题自然是:什么样的多模态数据组合才是最优的“炼金配方”?

Shukor 等人的研究也初步触及了这个问题。他们发现,NMMs 对不同类型数据的“消化效率”是不同的。从原文 Table 3 和 Fig 25 可以看到,模型在处理图文配对数据(Image-Caption)时,性能随计算量提升的速度(c 指数绝对值更大)似乎要快于处理图文交错的网页文档(Interleaved)和纯文本数据(Text-only)。这或许意味着,对于某些侧重图文理解的任务,加大图文对数据的比例可能更有效。

更有趣的是,改变不同类型数据的混合比例,会直接影响整体的 Scaling 曲线(见原文 Fig 4)。例如,当增加纯文本和交叉文档的比例时(从 45-45-10 变为 20-40-40),早期融合架构相对于晚期融合的优势似乎会扩大(见原文 Fig 15, 16)。

这些初步的发现指向了一个明确的结论:高效训练 NMMs,不能再搞“大水漫灌”式的数据投喂,而要走向“精准滴灌”的数据策略。

但这门“数据炼金术”的复杂性也远超想象。首先,如何定义不同模态数据的“等效计算量”?一分钟的视频,相当于多少文字,或者多少张图片?目前业界尚无统一标准,不同的研究[20]给出的换算比例可能相差数倍。其次,数据的质量、标注的准确性、内容的多样性、乃至数据来源的合规性,都可能比数据量本身更重要。最后,最优的数据配比很可能不是固定的,而是与目标任务(视觉问答 vs 图像生成)、模型架构(早期/晚期融合 vs MoE)、甚至训练阶段都息息相关。例如,Anthropic 在训练 Claude 3[21] 时就采用了渐进式策略,根据公开的最佳实践分享[22],他们在后期增加了视频数据和特定领域数据的比例。

目前,尽管 Google Gemini [Google AI Blog on Gemini[23]]、OpenAI GPT-4V [OpenAI GPT-4 Research[24]] 等顶尖模型都声称使用了海量的多模态数据进行训练,但具体的混合比例和策展策略仍然是各家的核心机密。探索并建立一套科学的多模态数据价值评估体系和动态混合策略,将是未来 NMMs 发展的关键胜负手。一些研究甚至开始探讨数据混合定律[25],试图量化不同领域数据的最佳配比。

结论:告别单一法则,拥抱多模态 Scaling 新纪元

Chinchilla Scaling Laws 无疑是 AI 发展史上的一座里程碑,它为大型语言模型的训练提供了宝贵的指导。但将其奉为放之四海而皆准的绝对真理,在多模态浪潮汹涌而来的今天,已显得刻舟求剑。

Shukor 等人的研究,连同我们补充的行业观察和案例,共同描绘了一幅更复杂、更动态、也更激动人心的 NMM Scaling 新图景:

  1. 平衡点漂移:NMMs 的最优 N/D 平衡点相较于 LLMs 发生了微妙偏移。

  2. 架构定成败:早期融合以其原生效率优势崭露头角,挑战着晚期融合的主流地位。

  3. MoE 颠覆:稀疏性彻底改变了游戏规则,将数据推向了前所未有的核心位置。

  4. 数据炼金:模态组合与数据配比成为新的优化维度,需要科学的方法论指导。

这一切意味着什么?

对于AGI 的探索者而言,通往通用智能的道路必然是多模态的。精准理解并掌握 NMMs 的 Scaling Laws,是构建能够真正理解和交互于复杂物理世界的智能系统的基石。正如 Yann LeCun 反复强调的那样[26],仅仅依赖文本预测的自回归模型可能无法触及真正的智能,我们需要能够从多感官数据中学习世界模型的架构,而早期融合和 MoE 正是朝这个方向迈出的重要一步。同样,Ilya Sutskever 也曾暗示[27],通过多模态扩展 Transformer 可能自然演化至 AGI,但其关键在于计算效率和数据策略的革新。

对于产业界的决策者(管理者、投资人、工程师)而言,这些新认知直接关系到真金白银的投入和战略方向的选择。是继续沿用晚期融合的“捷径”,还是拥抱早期融合的“原生效率”?是押注 MoE 的巨大潜力,并准备好应对其对数据的极致渴求,还是选择更成熟的密集模型?如何构建自己的数据护城河,并制定动态的数据混合策略?这些问题没有标准答案,但理解 Scaling Laws 的演变,无疑是做出明智决策的前提。这场由 Scaling Laws 演进驱动的竞争,正在重塑科技巨头、AI 实验室和初创公司之间的力量格局,这一点在近期的行业分析中[28]已有所体现。

未来已来,只是分布不均。多模态 Scaling Laws 的研究才刚刚开始,视频、音频、乃至更广泛的传感器数据将带来更多变量和复杂性,相关挑战已被广泛讨论[29]。但方向已经明确:告别单一、静态的法则,拥抱一个更精细、动态、数据驱动的多模态 Scaling 新纪元,这正是通往更强大、更通用人工智能的必由之路。

那么,你如何看待这些 NMM Scaling Laws 的新发现?它们对你所在的领域或研究方向有何启发?在你的实践中,是否也观察到了类似的现象或遇到了相关的挑战?欢迎在评论区留下你的洞见,与我们一同绘制多模态 Scaling 新时代的蓝图!

参考资料

Chinchilla Scaling Laws (Hoffmann et al., 2022): https://arxiv.org/abs/2203.15556

GPT-4: https://klu.ai/blog/gpt-4-llm

Llama 2: https://ai.meta.com/llama/

《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025): https://arxiv.org/abs/2504.07951

[5]

GPT-3: https://arxiv.org/abs/2005.14165

[6]

[探索 NMM Scaling Laws: https://arxiv.org/abs/2504.07951

[7]

LLaVA: https://arxiv.org/abs/2304.08485

[8]

Flamingo: https://arxiv.org/abs/2204.14198

[9]

预训练模型库: https://huggingface.co/models

[10]

背后的工程与战略考量: https://aicompetence.org/data-fusion-in-multimodal-ai/

[11]

边缘 AI: https://www.ibm.com/cloud/learn/edge-ai

[12]

Chameleon 系列模型: https://ai.meta.com/blog/chameleon-foundation-models-early-fusion-token-based-mixed-modal/

[13]

技术报告显示: https://techxplore.com/news/2024-05-meta-chameleon-early-fusion-multimodal.html

[14]

Mixtral 8x7B: https://arxiv.org/abs/2401.04088

[15]

一些分析所指出的: https://zilliz.com/blog/multimodal-pipelines-for-ai-applications

[16]

近期的研究中: https://openreview.net/forum?id=y1iU5czYpE

[17]

Google 的 LIMoE 研究: https://arxiv.org/abs/2206.02770

Expert Choice Routing: https://research.google/blog/mixture-of-experts-with-expert-choice-routing/

动态容量缓冲: https://labelyourdata.com/articles/mixture-of-experts-llm

不同的研究: https://arxiv.org/abs/2410.13638

[21]

Claude 3: https://www.anthropic.com/news/claude-3-family

[22]

公开的最佳实践分享: https://aws.amazon.com/blogs/machine-learning/best-practices-and-lessons-for-fine-tuning-anthropics-claude-3-haiku-on-amazon-bedrock/

[23]

[Google AI Blog on Gemini: https://ai.googleblog.com/2023/12/our-largest-and-most-capable-ai-model.html

[24]

[OpenAI GPT-4 Research: https://openai.com/research/gpt-4

[25]

数据混合定律: https://arxiv.org/abs/2403.16952

[26]

反复强调的那样: https://www.ctol.digital/news/lecun-challenges-agi-hype-true-artificial-general-intelligence-years-away/

[27]

也曾暗示: https://www.reddit.com/r/singularity/comments/17xn0s5/openai_cofounder_and_chief_scientist_says_that/

[28]

近期的行业分析中: https://techcrunch.com/2024/11/20/ai-scaling-laws-are-showing-diminishing-returns-forcing-ai-labs-to-change-course/

[29]

相关挑战已被广泛讨论: https://milvus.io/ai-quick-reference/what-are-the-challenges-in-building-multimodal-ai-systems

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法新社镜头下的中国军人,不动如山

法新社镜头下的中国军人,不动如山

三叔的装备空间
2026-05-14 21:50:39
金价、银价,都跌了

金价、银价,都跌了

环球网资讯
2026-05-15 10:55:45
马斯克儿子“小X”为什么可以随行?他为什么受马斯克宠爱?

马斯克儿子“小X”为什么可以随行?他为什么受马斯克宠爱?

楠楠自语
2026-05-15 14:48:33
因耍大牌惨遭封杀,为上位求拍“裸戏”,不怪张颂文都嫌弃她

因耍大牌惨遭封杀,为上位求拍“裸戏”,不怪张颂文都嫌弃她

落雪听梅a
2026-05-15 01:22:17
50元话费牵出婚外孽缘,女子拒婚遭情夫奸杀,脑袋钻下体疯狂摧残

50元话费牵出婚外孽缘,女子拒婚遭情夫奸杀,脑袋钻下体疯狂摧残

易玄
2026-05-14 20:16:34
乾隆为容妃擦洗身子察觉她腰窝凸起,当晚其近身太监全发配宁古塔

乾隆为容妃擦洗身子察觉她腰窝凸起,当晚其近身太监全发配宁古塔

铭记历史呀
2026-05-14 15:17:18
B站两个百万粉擦边主播,已经互撕一个多月了 她们到底在吵什么?

B站两个百万粉擦边主播,已经互撕一个多月了 她们到底在吵什么?

国创漫话
2026-05-13 13:45:52
《真人快打2》逆袭:游戏改编电影终于翻身了

《真人快打2》逆袭:游戏改编电影终于翻身了

娱圈观察员
2026-05-14 06:31:06
程序员入职牧原股份被要求先去养猪,证券部工作人员:不是所有岗位都有此要求

程序员入职牧原股份被要求先去养猪,证券部工作人员:不是所有岗位都有此要求

红星资本局
2026-05-15 15:33:10
支付宝回应“扣款捐赠184万元”:涉事账户存在与他人共用嫌疑,正在向警方寻求帮助

支付宝回应“扣款捐赠184万元”:涉事账户存在与他人共用嫌疑,正在向警方寻求帮助

每日经济新闻
2026-05-15 13:22:06
2026年5月起,个人存款超过100万的人,或将面临这“四个难题”

2026年5月起,个人存款超过100万的人,或将面临这“四个难题”

猫叔东山再起
2026-05-15 09:20:15
女孩穿吊带等地铁 工作人员暖心提醒

女孩穿吊带等地铁 工作人员暖心提醒

闪电新闻
2026-05-14 14:42:56
梅总大逆转,辛纳遭调侃,高芙退双保单,郑钦文列第二替补

梅总大逆转,辛纳遭调侃,高芙退双保单,郑钦文列第二替补

网球之家
2026-05-15 14:14:39
陈都灵,瘦的让人心疼

陈都灵,瘦的让人心疼

陈意小可爱
2026-05-01 10:53:54
成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

成人片女星许诺萨福诺夫夺欧冠将共度良宵,球员妻子爆粗回应

懂球帝
2026-05-14 15:58:14
广州番禺宝墨园宣布:免费入园!

广州番禺宝墨园宣布:免费入园!

广州生活美食圈
2026-05-15 20:29:13
A股分红派息转增一览:30股今日股权登记

A股分红派息转增一览:30股今日股权登记

每日经济新闻
2026-05-15 07:44:08
市场监管总局:覆盖拼多多、淘宝、京东等平台,发现1415批次产品不合格

市场监管总局:覆盖拼多多、淘宝、京东等平台,发现1415批次产品不合格

封面新闻
2026-05-15 20:52:02
堵门的人,最终被砌进了墙里

堵门的人,最终被砌进了墙里

民间胡扯老哥
2026-05-12 18:21:25
C罗将出任追觅全球代言人,品牌全球化战略再提速

C罗将出任追觅全球代言人,品牌全球化战略再提速

Morketing
2026-05-13 15:40:29
2026-05-16 00:03:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4736文章数 37462关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

头条要闻

特朗普称中方同意购买200架波音飞机 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

旅游
手机
健康
教育
军事航空

旅游要闻

别只冬天去哈尔滨,五月花海才是正确打开方式!

手机要闻

华为Pura 90 Pro系列获鸿蒙HarmonyOS 6.1.0.120 SP30升级

专家揭秘干细胞回输的安全风险

教育要闻

七中育才又新增3个校区,个个有来头

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版