网易首页 > 网易号 > 正文 申请入驻

VAR 会是 Scaling Law 在视觉生成的新起点吗?

0
分享至

机器之心PRO · 会员通讯 Week 16

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. VAR 会是 Scaling Law 在视觉生成的新起点吗?

基于扩散的Sora没有Scaling Law吗?自回归比扩散模型更能Scale Up?VAR如何验证Scaling Law?下个视觉生成范式是VAR吗?...

2. Gen AI 应用需求急剧降速?3月访问量暴跌超 90%

被用户「证伪」的有哪些应用?「急剧降速」的 AI 应用都有哪些特点?在 AI 应用「高度同质化」的背景下,有哪些仍在持续涨幅的应用值得关注?顶级 VC 们看好哪类应用?...

3.《2024 年人工智能指数报告》报告都说了什么?

2024 AI Index有什么变化?AI在2023年有哪些进展?全球各国对AI的态度如何?政府对AI治理态度如何?...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 8 项,国外方面 11 项。

本期通讯总计 23461 字,可免费试读至 14 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)



要事解读 ①VAR 会是 Scaling Law 在视觉生成的新起点吗?

日期:4 月 19 日

事件:2024 年初,OpenAI 在 Sora 的技术报告中称 Diffusion Transformer 具备 scale effective 的特征,引起了社区对 Scailing Law 的又一次热议。北大和字节团队近期提出的 VAR 则使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws。

基于扩散模型的 Sora 没能解锁视觉领域的 Scaling Law 吗?

1、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。

2、扩散模型是当前最流行的生成式技术之一。虽然具备 Scaling Law 和零试泛化能力的 GPT、LLaMa 系列等自回归模型在 NLP 领域进展显著,但在视觉领域的表现仍落后于 Dall-E3、Stable Diffusion3 等基于扩散方法的模型。

3、Sora 是当前最为热门的视觉生成模型,有许多分析称 Sora 是潜在扩散模型(LDMs)和 DiT 的结合,但后续有工作质疑了这两个模型和 Scaling Law 并非十分契合。[2] [3] [4]

4、谷歌团队在 2024 年 4 月的论文中证明了 scaling law 在 LDM 中并不适用。[5]

① 该工作发现,对于潜在扩散模型(Latent Diffusion Models, LDMs),在计算资源较少时,如果增加 10 倍的计算量,应该让数据集大小增加为 10 倍,而不增加模型参数量。

5、被 Sora 带火的 DiT 论文虽然验证了该模型一定程度上符合 Scaling Law,但后续 VAR 论文中指出了 DiT 在 Scale Up 时存在局限,无法触及 FID 下限。

① DiT 论文中,研究者使用 Transformer 代替原始扩散模型中的 U-Net,获得了 SoTA 的图像生成效果,并证明随着整个计算的 FLOPs 的增多(即模型变大或 patch 更精细),FID 会越来越小。[6]

② 北大和字节的研究者在 VAR 论文中指出,DiT 存在 Scaling 局限,在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限 [1]

表:扩散模型与其他图像生成技术的特征对比 [7]


扩散不行,基于自回归的 VAR 能证明视觉领域也有 Scaling Law 吗?[1]

1、北大和字节跳动的研究者 4 月 3 日发布的论文中提出 VAR 视觉自回归模型,其核心是模仿人类视觉,重新定义图像自回归顺序,先概览全局再深入细节,这种由粗到细的逻辑顺序更自然且符合人类直觉。

2、在实验中,VAR 架构实现了让 GPT 风格的自回归模型在图像生成首次超越扩散模型。

① 研究者在 Conditional ImageNet 256x256 和 512x512 上实验对比了 VAR 和其他生成式模型。

② VAR 最高实现了 FID=1.80 分值,逼近理论上的 FID 下限 1.78(ImageNet validation set),显著优于 DiT(FID=2.10)

③ VAR 只需不到 0.3 秒即可生成一张 256x256 图像,速度是 DiT 的 45 倍;在 512x512 的生成速度则是 DiT 的 81 倍。

3、研究者还通过实验观察到 VAR 展现出与 LLM 几乎完全一致的 Power-Law Scaling Law。

① 研究者训练了 12 种大小的模型,参数量覆盖 1800 - 20 亿,总计算量跨 6 个数量级,最大总 token 数达到 3050 亿。

② 研究者观察发现测试集损失于参数规模间展现了平滑的的幂律(Power-Law)关系,并拟合良好。

③ 通过测试对比,DiT 大模型在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限;而 VAR 经过 scale up 到 20 亿参数,性能不断提升,最终触及 FID 下限。


图:VAR Transformer 伴随模型尺寸(N) 的 Scaling Law,幂律拟合以虚线表示,方程可见图例。其中,接近零的小指数 α 表明,当增大 VAR Transformer 尺寸时,测试损失 L 和标记误差率 Err 都会平稳下降。坐标轴均为对数刻度。皮尔逊相关系数接近 -0.998,表明 log(N) 与 log(L) 或 log(N) 与 log(Err) 之间存在很强的线性关系。[1]

VAR 会是视觉生成领域的下一个主要范式吗?

1、VAR 模型采用自回归方法,其设计灵感来源于人类感知和创作图像的方式,即从全局到局部,从粗略到精细。

① 这种「以人为本」的「下一尺度预测」的生成策略,这允许模型更有效地捕捉图像的视觉分布。

② 传统的图像自回归模型采用光栅扫描顺序(raster-scan order)来逐个预测图像 token,虽适合计算机处理,但不符合人类直觉。

2、VAR 的训练过程含两个阶段,第一阶段训练一个多尺度量化自动编码器(VQVAE),将图像转化为离散的 token map,并通过连续化和解码重建图像。第二阶段则训练出类似 GPT-2 的自回归 Transformer,并使用 AdaLN 技术。

3、训练过程中,VAR 模型通过多尺度 VQVAE 将图像编码为多个不同分辨率的 token maps,然后自回归地生成。这种方法保持了图像的空间局部性,并且可以并行生成同一尺度内的标记。

4、传统的 AR 模型需要对每个像素进行自回归预测,其计算复杂性较高,通常是 O(n^2)的迭代次数和 O(n^6)的总计算量,其中 n 是图像的分辨率。VAR 模型通过多尺度预测,可将计算复杂性降低到 O(n^4)。

5、就 VAR 的未来机会,北大和字节的研究者 VAR 模型与 LLMs 在本质上相似,因此可以轻松地与它们集成,以通过编码器-解码器或上下文方式执行文本到图像的生成。这会是团队当前优先探索的研究方向之一。

① 虽然 VAR 没有实现视频生成,但研究者认为通过将多尺度视频特征视为 3D 金字塔,可以自然地扩展 VAR 模型以生成视频。VAR 模型在处理长期依赖性方面具有潜在优势,这使得它在视频生成领域具有竞争力。

6、VAR 的表现和幂律 scaling effectiveness 引起了社区的热议。在感慨的同时,也有网友指出 VAR 可能存在的局限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传浙江某富二代携53亿跑到美国逍遥,其父疑为汽车经销商创办人

网传浙江某富二代携53亿跑到美国逍遥,其父疑为汽车经销商创办人

互联网大聪明
2024-06-20 09:47:33
俄罗斯又一款明星级武器现了原形,这次是喀山号核潜艇

俄罗斯又一款明星级武器现了原形,这次是喀山号核潜艇

听风听你
2024-06-19 10:28:45
普京访问朝鲜和越南,两边接待规格的五大区别,说明什么呢

普京访问朝鲜和越南,两边接待规格的五大区别,说明什么呢

低调看天下
2024-06-20 20:04:50
“消失”两年后被查的“老虎”,敛财20年!

“消失”两年后被查的“老虎”,敛财20年!

政知新媒体
2024-06-20 17:38:24
哈尔科夫遭困俄军被歼灭,美国援乌F16战机将配备美国飞行员

哈尔科夫遭困俄军被歼灭,美国援乌F16战机将配备美国飞行员

史政先锋
2024-06-20 19:56:48
她把奥运门票打没了!14扣2中,比王云蕗还差,球迷:最差边攻手

她把奥运门票打没了!14扣2中,比王云蕗还差,球迷:最差边攻手

弄月公子
2024-06-20 20:53:07
欧洲杯失魂之夜!英格兰遭猛烈炮轰:越踢越差,全是大爷

欧洲杯失魂之夜!英格兰遭猛烈炮轰:越踢越差,全是大爷

叶青足球世界
2024-06-21 02:14:44
李娜讲述自己法网夺冠:会有保镖24小时保护你,购物可以要求清场

李娜讲述自己法网夺冠:会有保镖24小时保护你,购物可以要求清场

直播吧
2024-06-20 23:14:17
中方宣布对澳免签,承诺再赠一对大熊猫,话音刚落澳改变对台表述

中方宣布对澳免签,承诺再赠一对大熊猫,话音刚落澳改变对台表述

陈菲副教授
2024-06-20 19:25:02
青岛网红大楼22岁女子跳楼身亡!上衣失踪引争议,身份和原因曝光

青岛网红大楼22岁女子跳楼身亡!上衣失踪引争议,身份和原因曝光

林大师热点
2024-06-20 16:19:36
演出取消!蒙古国反华艺人原定呼市演出遭抵制,从2017开始已来华多次

演出取消!蒙古国反华艺人原定呼市演出遭抵制,从2017开始已来华多次

不掉线电波
2024-06-20 18:42:53
店员泼顾客一脸咖啡粉,大喊“你投诉呀”!知名品牌回应,有员工称8小时内要做500杯咖啡

店员泼顾客一脸咖啡粉,大喊“你投诉呀”!知名品牌回应,有员工称8小时内要做500杯咖啡

21世纪经济报道
2024-06-20 19:32:21
云南保山市长陈锐离世 简历已从政府官网撤下

云南保山市长陈锐离世 简历已从政府官网撤下

红星新闻
2024-06-20 16:11:08
“女子被困精神病院超10年”追踪:现已出院并找到工作,社区干部称其父一直有交生活费

“女子被困精神病院超10年”追踪:现已出院并找到工作,社区干部称其父一直有交生活费

红星新闻
2024-06-20 19:00:30
许绍雄:一路好好走!“欢喜哥”再也不见!2018年退圈,73岁无憾

许绍雄:一路好好走!“欢喜哥”再也不见!2018年退圈,73岁无憾

娱乐圈阿榨
2024-06-19 20:31:30
姜萍中专同学被找到,确认其月考数学成绩只有83分,有准考证可以证明

姜萍中专同学被找到,确认其月考数学成绩只有83分,有准考证可以证明

小萝卜丝
2024-06-20 21:06:54
欧洲杯最大危机:塞尔维亚威胁退赛!提1条件,要欧足联严惩2队!

欧洲杯最大危机:塞尔维亚威胁退赛!提1条件,要欧足联严惩2队!

风过乡
2024-06-20 20:21:42
玉兰油女神45岁全貌曝光!震撼对比让人惊呆

玉兰油女神45岁全貌曝光!震撼对比让人惊呆

轻嗅蔷薇
2024-06-20 18:50:02
2012年三对高校教师夫妻玩“换妻”游戏,内容不堪入目,结局如何

2012年三对高校教师夫妻玩“换妻”游戏,内容不堪入目,结局如何

阿胡
2024-06-19 14:36:12
越扒越深,享受国务院津贴的余琦,到底还有多少个头衔

越扒越深,享受国务院津贴的余琦,到底还有多少个头衔

文雅笔墨
2024-06-20 10:24:07
2024-06-21 05:40:49
机器之能
机器之能
探索人工智能应用场景及商业化
1936文章数 4356关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

欧洲杯:西班牙1-0意大利提前出线

头条要闻

欧洲杯:西班牙1-0意大利提前出线

体育要闻

千夫所指的关系户 成了拯救葡萄牙的英雄

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

楼市新“王炸”!释放何信号?

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

本地
房产
时尚
旅游
公开课

本地新闻

2024·合肥印象|用崭新视角对话城市发展

房产要闻

海棠湾!一所重量级国际学校真的来了!

当男人不耍帅时,就是最帅的时候(穿衣篇)

旅游要闻

铁路儿童票新规 已有超4900万小旅客免费出行

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版