网易首页 > 网易号 > 正文 申请入驻

Scaling Laws又失灵了?谷歌新研究:扩散模型不是越大越好

0
分享至

  大数据文摘授权转载自夕小瑶科技说
作者:Zicy

  
近年来,模型规模呈现出愈来愈大的趋势,越来越多的人相信“力大砖飞”。

  OpenAI 虽然没有公布Sora的训练细节,但在Sora的技术报告中提到了:

Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

  OpenAI是scaling laws的坚定拥护者。可是模型训练是否真的出奇迹呢?

  谷歌最新的研究结论:

  不是!

  谷歌研究院和约翰霍普金斯大学在最新的论文中指出:对于潜在扩散模型,模型不一定是越大越好。

  论文链接:
https://arxiv.org/abs/2404.01367

  Scaling laws 争议一直有

  关于Scaling laws(中文译文:缩放定律),来自Open AI 2020年的论文《Scaling Laws for Neural Language Models》,简单说就是:模型的效果和规模大小、数据集大小、计算量大小相相关,而与模型的具体结构(层数/深度/宽度)弱相关。

  论文链接:
https://arxiv.org/pdf/2001.08361.pdf

  Scaling Laws不仅适用于语言模型,还适用于其他模态以及跨模态的场景。缩放定律提出的意义是重大的,根据它研究人员和开发者可以更有效地设计模型架构,选择合适的模型大小和数据集规模,以在有限的计算资源下实现最佳性能。

  关于缩放定律的研究,先前的研究主要集中在大语言模型(LLM)上,关于它的争议一直存在:

  OpenAI认为[1],每增加10倍的计算量,应该让数据集大小增加为约1.8倍,模型参数量增加为约5.5倍。换句话说,模型参数量更加的重要。

  DeepMind认为[2],每增加10倍的计算量,应该让数据集大小增加为约3.16倍,模型参数量也增加为约3.16倍。换句话说,数据集大小和模型参数量一样重要。

  先前,关于LLM的缩放定律已经被充分研究,而Google的最新研究则关注图像生成模型:潜在扩散模型(Latent Diffusion Models, LDMs),从DALL·E到最近大火的Sora,我们都能看到它的影子。但是谷歌的研究结论是:

  对于LDMs,在计算资源较少时,如果增加10倍的计算量,应该让数据集大小增加为10倍,而不增加模型参数量。换句话说,数据集大小更加的重要。

  Scaling Laws 又失灵了吗?

  小模型的生成质量更好

  作者设计了11个文本生成图像的LDM,其参数量从3900万到50亿不等,如下图所示,第一行是模型参数量,第二行是其中Unet模型的第一层宽度,第三和四行分别是模型的GFLOPS(运行一次前向传播和反向传播所需的计算量)和花费(相对于原始866M模型的花费,即假设866M模型的花费为1.00)

  众所周知,模型的总计算量等于训练步骤和GFLOPS的乘积,所以在总计算量恒定的约束下,越大的模型能得到的训练步骤就越少,所以是模型大比较重要还是训练步骤多比较重要呢?

  训练步骤多比较重要!在计算资源有限时,较小的模型(训练步骤多)可以胜过较大的模型(训练步骤少);模型大小以及训练步骤的选择要和计算资源适配。下面给出了一个定性的示例,可以看出小模型的效果更好一些。

  但当训练步骤恒定时,依然是模型越大越好,下面给出了一个例子:训练步骤恒为500k,不同体积模型的生成效果。

  但大模型更擅长图像细节

  使用前面的text2image任务作为预训练任务,分别在超分辨率任务和DreamBooth任务上做微调,发现在超分辨率任务上,相同的计算量,模型越大,FID越低(生成质量越好),而超分辨率任务最考验模型的细节生成能力。

  下面是一个定性的例子

  在下面DreamBooth上的表现证明了同样的结论,即大模型更擅长图像细节。

  不同体积模型的CFG相关性竟然基本一致

  先简单介绍一下CFG:

  CFG速率(Classifier-Free Guidance Rate)是一种在扩散模型中使用的技术,在文本到图像的生成任务中,它通过调整模型在随机生成和文本条件生成之间的平衡来实现这一目标。

  扩散模型在生成过程中,通常会从一个纯噪声状态开始,逐步降噪直至产生清晰的图像。在这一过程中,CFG技术引入了一个额外的“引导”步骤,通过该步骤可以更加强烈地推动生成的图像朝着给定文本描述相符合的方向发展,CFG速率定义了这种引导的强度。

  具体来说,CFG修改了模型在生成过程中使用的文本信息的权重。CFG速率为0意味着完全不使用文本信息,而较高的CFG速率意味着文本信息对生成过程的影响更大。通过调整CFG速率,可以在图文相关性与图像质量之间找到最佳平衡。

  下图是不同模型和采样步骤下,最优的CFG热力图:

  你会发现,同一行的颜色基本是一致的,这说明不同体积的模型受CFG的影响是基本一致的,下面给出了一个定性的示例,从左到右的CFG逐渐提高。

  虽然下面一行的整体质量比上面好,但是两行从左到右的整体变化趋势基本一样。甚至作者在蒸馏模型中进行同样的实验,依然能得到同样的结论。

  效率与品质的探索

  这项研究无疑将对开发更高效的图像生成AI系统产生深远影响,因为它提出了实现模型效率与质量之间最佳平衡的指导性建议。通过深入探索潜在扩散模型(LDM)的扩展特性及模型大小与性能的关系,研究人员得以精准调整,以达到效率和质量的和谐统一。

  这些成果也与AI领域的最新动态相契合,比如LLaMa、Falcon等小型语言模型在多项任务中超越大型对手。这股推动更开源、更小巧、更高效模型的发展势头,旨在推动AI技术的民主化,使开发者得以在不依赖庞大计算资源的情况下,于边缘设备上构建个性化的AI系统。

  参考资料

  [1]Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J] arXiv preprint arXiv:2001.08361, 2020.
[2]Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models [J] arXiv preprint arXiv:2203.15556, 2022.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普通家庭存款到这个数,已经是天花板级别,之前不信,现却很肯定

普通家庭存款到这个数,已经是天花板级别,之前不信,现却很肯定

蓝色海边
2026-04-26 13:47:25
戴着妈妈的项链去面试,被董事长看到,董事长震惊问:你妈妈是谁

戴着妈妈的项链去面试,被董事长看到,董事长震惊问:你妈妈是谁

千秋文化
2026-04-18 19:08:36
泰山和海牛的上半场,彭啸这边被对手打爆?没进攻没防守喜欢散步

泰山和海牛的上半场,彭啸这边被对手打爆?没进攻没防守喜欢散步

新新自圆其说说体育
2026-04-26 17:59:47
哈维:最接近梅西的是刚来巴萨的内马尔;当教练比当球员难

哈维:最接近梅西的是刚来巴萨的内马尔;当教练比当球员难

懂球帝
2026-04-26 10:17:08
负债近3000亿,一年缩水820亿!如今王健林最后一张王牌也没了

负债近3000亿,一年缩水820亿!如今王健林最后一张王牌也没了

品牌观察官
2026-04-26 17:47:13
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
全体车主注意!4月30日前必须办完,5月1日起直接扣分罚款

全体车主注意!4月30日前必须办完,5月1日起直接扣分罚款

三农老历
2026-04-26 15:21:34
39岁丁俊晖险爬上球台!心态升华造就5年最强的他 鹿死谁手不好说

39岁丁俊晖险爬上球台!心态升华造就5年最强的他 鹿死谁手不好说

风过乡
2026-04-26 07:06:04
莫耶斯:西汉姆球员用手击球,真没想到我们居然没被判罚点球

莫耶斯:西汉姆球员用手击球,真没想到我们居然没被判罚点球

懂球帝
2026-04-26 00:52:50
信仰不是法外之地,全国开始雷霆出击整顿寺庙

信仰不是法外之地,全国开始雷霆出击整顿寺庙

世界圈
2026-04-17 08:50:05
那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

尚曦读史
2025-01-19 12:50:03
曼晚:曼联今夏将送走13名球员,为重建腾出薪金空间

曼晚:曼联今夏将送走13名球员,为重建腾出薪金空间

懂球帝
2026-04-26 17:56:22
特朗普抨击哈里王子访乌,俄市民哀叹乌克兰袭击后当地像广岛和切尔诺贝利 | 狼叔看世界

特朗普抨击哈里王子访乌,俄市民哀叹乌克兰袭击后当地像广岛和切尔诺贝利 | 狼叔看世界

狼叔看世界
2026-04-24 15:29:22
比赛还没开打,上海申花迎来两个好消息,战胜河南基本稳了

比赛还没开打,上海申花迎来两个好消息,战胜河南基本稳了

kio鱼
2026-04-26 16:08:17
斯诺克世锦赛:吴宜泽出师不利!2局仅得1分,塞尔比狂轰2破百!

斯诺克世锦赛:吴宜泽出师不利!2局仅得1分,塞尔比狂轰2破百!

刘姚尧的文字城堡
2026-04-26 17:56:36
张军失联的背后,传递出4个重要信号!刘国梁竟然成舆论焦点

张军失联的背后,传递出4个重要信号!刘国梁竟然成舆论焦点

小彭美识
2026-04-26 11:55:11
G4输森林狼!掘金主帅直指3大问题,约基奇回应冲突,豪言不后悔

G4输森林狼!掘金主帅直指3大问题,约基奇回应冲突,豪言不后悔

萌兰聊个球
2026-04-26 16:44:19
黑八要来了?60胜徒有虚名,当家球星场均31+8燃尽,身边却无帮手

黑八要来了?60胜徒有虚名,当家球星场均31+8燃尽,身边却无帮手

你的篮球频道
2026-04-26 07:41:05
女星陶昕然发长文回应被《乘风2026》淘汰,称“想翻红没错”:红意味着选择权,可我也知道这个世界不缺红的方式,我会爱惜羽毛

女星陶昕然发长文回应被《乘风2026》淘汰,称“想翻红没错”:红意味着选择权,可我也知道这个世界不缺红的方式,我会爱惜羽毛

鲁中晨报
2026-04-25 16:08:13
卢特尼克暴怒:中国一块芯片也没买,美国的技术封锁终于迎来反噬

卢特尼克暴怒:中国一块芯片也没买,美国的技术封锁终于迎来反噬

忠诚TALK
2026-04-24 23:06:00
2026-04-26 18:43:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6853文章数 94542关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

健康
本地
亲子
数码
公开课

干细胞如何让烧烫伤皮肤"再生"?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

亲子要闻

给宝宝的辅食太精细,危害不是一般大,家长们早了解早安心

数码要闻

Google或正逐步淡化 Fitbit 品牌

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版