网易首页 > 网易号 > 正文 申请入驻

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

0
分享至

机器之心发布

机器之心编辑部

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力:



论文标题: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"

这项名为 VAR 的新工作由北京大学和字节跳动的研究者提出,登上了 GitHub 和 Paperwithcode 热度榜单,并得到大量同行关注:



目前体验网站、论文、代码、模型已放出:

  • 体验网站:https://var.vision/
  • 论文链接:https://arxiv.org/abs/2404.02905
  • 开源代码:https://github.com/FoundationVision/VAR
  • 开源模型:https://huggingface.co/FoundationVision/var

背景介绍

在自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive 自回归模型已经取得了较大的成功,尤其Scaling Law 缩放定律和 Zero-shot Task Generalizability 零样本任务泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潜力。

然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型:近期持续刷屏的DALL-E3、Stable Diffusion3、SORA等模型均属于 Diffusion 家族。此外,对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知,即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。

GPT 形式自回归模型的强大能力与 Scaling Law,在图像生成领域,似乎被「锁」住了:



自回归模型在生成效果榜单上落后于一众 Diffusion 模型

剑指「解锁」自回归模型的能力和 Scaling Laws,研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,并迎来了视觉生成领域的 Scaling Laws:



VAR 方法核心:模仿人类视觉,重新定义图像自回归顺序

人类在感知图像或进行绘画时,往往先概览全局、再深入细节。这种由粗到细、从把握整体到精调局部的思想非常自然:



人类感知图片(左)与创作画作(右)由粗到细的逻辑顺序

然而,传统的图像自回归(AR)却使用一种不符合人类直觉(但适合计算机处理)的顺序,即自上而下、逐行扫描的光栅顺序(或称 raster-scan 顺序),来逐个预测图像 token:



VAR 则「以人为本」,模仿人感知或人创造图像的逻辑顺序,使用从整体到细节的多尺度顺序逐渐生成 token map:



除了更自然、更符合人类直觉,VAR 带来的另一个显著优势是大幅提高了生成速度:在自回归的每一步(每一个尺度内部),所有图像 token 是一次性并行生成的;跨尺度则是自回归的。这使得在模型参数和图片尺寸相当的情况下,VAR 能比传统 AR 快数十倍。此外,在实验中作者也观察到 VAR 相比 AR 展现出更强的性能和 Scaling 能力。

VAR 方法细节:两阶段训练



VAR 在第一阶段训练一个多尺度量化自动编码器(Multi-scale VQVAE),在第二阶段训练一个与 GPT-2 结构一致(结合使用 AdaLN)的自回归 Transformer。

如左图所示,VQVAE 的训练前传细节如下:

  • 离散编码:编码器将图片转化为离散 token map R=(r1, r2, ..., rk),分辨率从小到大
  • 连续化:r1 至 rk 先通过嵌入层转换为连续 feature map,再统一插值到 rk 对应最大分辨率,并求和
  • 连续解码:求和后的 feature map 经过解码器得到重建图片,并通过重建 + 感知 + 对抗三个损失混合训练

如右图所示,在 VQVAE 训练结束后,会进行第二阶段的自回归 Transformer 训练:

  • 自回归第一步是通过起始 token [S]预测最初的1x1token map
  • 随后每一步,VAR 都基于历史所有的 token map 去预测下一个更大尺度的 token map
  • 训练阶段,VAR 使用标准的交叉熵损失监督这些 token map 的概率预测
  • 测试阶段,采样得到的 token map 会借助 VQVAE 进行连续化、插值求和、解码,从而得到最终生成的图像

作者表示,VAR 的自回归框架是全新的,而具体技术方面则吸收了 RQ-VAE 的残差 VAE、StyleGAN 与 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列经典技术的长处。VAR 实际是站在巨人的肩膀上,聚焦于自回归算法本身的创新。

实验效果对比

VAR 在 Conditional ImageNet 256x256 和 512x512 上进行实验:

  • VAR 大幅提升了 AR 的效果,一转 AR 落后于 Diffusion的局面
  • VAR 仅需10 步自回归步骤,生成速度大幅超过 AR、Diffusion,甚至逼近 GAN 的高效率
  • 通过Scale upVAR 直至2B/3B,VAR 达到了 SOTA 水平,展现出一个全新的、有潜力的生成模型家族。



令人关注的是,通过与SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)对比,VAR 展现出了:

  • 更好效果:经过scale up,VAR 最终达到 FID=1.80,逼近理论上的 FID 下限 1.78(ImageNet validation set),显著优于 DiT 最优的 2.10
  • 更快速度:VAR 只需不到0.3 秒即可生成一张 256 图像,速度是 DiT 的45 倍;在 512 上更是 DiT 的81 倍
  • 更好 Scaling能力:如左图所示,DiT 大模型在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限;而 VAR 经过缩放到 20 亿参数,性能不断提升,最终触及 FID 下限
  • 更高效的数据利用:VAR 仅需350epoch 训练即超过 DiT1400epoch 训练

这些比 DiT 更高效、更高速、更可扩放的证据为新一代视觉生成的基础架构路径带来了更多可能性。



Scaling Law 实验

Scaling law 可谓是大语言模型的「皇冠明珠」。相关研究已经确定,在 Scale up 自回归大型语言模型过程中,测试集上的交叉熵损失 L,会随着模型参数量 N、训练 token 个数 T,以及计算开销 Cmin 进行可预测的降低,呈现出幂律(Power-law)关系。

Scaling law 不仅使根据小模型预测大模型性能成为可能,节省了计算开销和资源分配,也体现出自回归 AR 模型强大的学习能力,测试集性能随着 N、T、Cmin 增长。

通过实验,研究者观察到了VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law:研究者训练了 12 种大小的模型,缩放模型参数量从 1800 万到 20 亿,总计算量横跨 6 个数量级,最大总 token 数达到 3050 亿,并观察到测试集损失 L 或测试集错误率 与 N 之间、L 与 Cmin 之间展现出平滑的的幂律关系,并拟合良好:



在 scale-up 模型参数和计算量过程中,模型的生成能力可见得到逐步提升(例如下方示波器条纹):



Zero-shot 实验

得益于自回归模型能够使用 Teacher-forcing 机制强行指定部分 token 不变的这一优良性质,VAR 也展现出一定的零样本任务泛化能力。在条件生成任务上训练好的 VAR Transformer,不通过任何微调即可零样本泛化到一些生成式任务中,例如图像补全(inpainting)、图像外插(outpainting)、图像编辑(class-condition editing),并取得一定效果:



结论

VAR 为如何定义图像的自回归顺序提供了一个全新的视角,即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的Scaling Laws、Zero-shot Generalizability。作者们希望 VAR 的思想、实验结论、开源,能够贡献社区探索自回归范式在图像生成领域的使用,并促进未来基于自回归的统一多模态算法的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!唐治平到电视台下跪求工作,落泪喊话:说800次那不是我妈

突发!唐治平到电视台下跪求工作,落泪喊话:说800次那不是我妈

郑丁嘉话
2024-06-20 11:35:23
他访华本质是求中国“救命”!这个忙,中国必须帮!

他访华本质是求中国“救命”!这个忙,中国必须帮!

华人星光
2024-06-20 16:31:34
嗯,是梅洛尼不想让冯德莱恩连任!还要注意她、她和她……

嗯,是梅洛尼不想让冯德莱恩连任!还要注意她、她和她……

新民周刊
2024-06-20 10:05:43
黄一鸣“杀疯了”!直播间卖大葱养孩子,王思聪被整得完全没脾气

黄一鸣“杀疯了”!直播间卖大葱养孩子,王思聪被整得完全没脾气

萌神木木
2024-06-18 21:18:32
中国队很可能成为2026年世界杯预选赛打比赛最多却没出线的球队!

中国队很可能成为2026年世界杯预选赛打比赛最多却没出线的球队!

刺头体育
2024-06-20 02:38:10
71岁总统文在寅的新生活曝光,种地成高手让人羡慕。

71岁总统文在寅的新生活曝光,种地成高手让人羡慕。

饭桶说史
2024-06-18 19:50:28
欧洲杯又乱了:4分未出线,0分却还活着!世界第16晋级,第10垫底

欧洲杯又乱了:4分未出线,0分却还活着!世界第16晋级,第10垫底

侃球熊弟
2024-06-20 04:54:02
上海市人民政府原副市长刘振元一行莅临丁墘村考察指导工作

上海市人民政府原副市长刘振元一行莅临丁墘村考察指导工作

国际传媒
2024-06-20 18:10:27
凯特公开后续行程:继续直肠癌的治疗,不再参加王室活动

凯特公开后续行程:继续直肠癌的治疗,不再参加王室活动

金牌娱乐
2024-06-20 11:23:57
农学教授在客厅筛麦种走红,妻子:都是偷拍的,丈夫要求删除视频

农学教授在客厅筛麦种走红,妻子:都是偷拍的,丈夫要求删除视频

芒果的爱pMgf
2024-06-20 12:04:38
创新低,人民币闷声下跌!

创新低,人民币闷声下跌!

暴财经
2024-06-20 11:56:34
全球约一半肝癌在中国,再次提醒:家中的3种食物,尽早撤下餐桌

全球约一半肝癌在中国,再次提醒:家中的3种食物,尽早撤下餐桌

39健康网
2024-06-19 18:33:21
黄岩岛告急:菲船大规模行动!

黄岩岛告急:菲船大规模行动!

战域笔墨
2024-06-20 16:35:24
创业板指跌幅扩大至1% 两市超4200家个股飘绿

创业板指跌幅扩大至1% 两市超4200家个股飘绿

每日经济新闻
2024-06-20 11:31:21
刚刚!北约传来重大消息,高层变天,给中国的承诺该兑现了...

刚刚!北约传来重大消息,高层变天,给中国的承诺该兑现了...

新财迷
2024-06-20 09:14:47
范冰冰又给国人长脸了!一袭中式刺绣裙,让世界见证东方之雅韵

范冰冰又给国人长脸了!一袭中式刺绣裙,让世界见证东方之雅韵

八卦王者
2024-06-20 15:50:26
以色列向全球发出沉痛之声!

以色列向全球发出沉痛之声!

林林爱天堂
2024-06-17 18:40:06
给美国立规矩!拜登彻底傻眼了,外媒:中国动真格了

给美国立规矩!拜登彻底傻眼了,外媒:中国动真格了

星辰故事屋
2024-06-18 17:47:14
终于来了!日本宣布介入仁爱礁冲突,中俄:不排除会击沉日本舰队

终于来了!日本宣布介入仁爱礁冲突,中俄:不排除会击沉日本舰队

史家评ing
2023-08-27 08:12:03
美英空袭也门!托孤中国,埃及国家博物馆清空!法老要宣战了?

美英空袭也门!托孤中国,埃及国家博物馆清空!法老要宣战了?

蓝星观察
2024-06-20 13:29:09
2024-06-20 20:30:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9099文章数 141946关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

世界女排联赛总决赛:中国女排0比3不敌日本无缘四强

头条要闻

世界女排联赛总决赛:中国女排0比3不敌日本无缘四强

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

深圳一网红学位房14万/平跌到4万/平

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

家居
健康
艺术
时尚
军事航空

家居要闻

自然开放 实现灵动可变空间

晚餐不吃or吃七分饱,哪种更减肥?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

中年女性穿衣的重点,不在衣服的数量多少,而在于这三个方面

军事要闻

以军发言人公开表示"哈马斯无法被消灭" 以政府反驳

无障碍浏览 进入关怀版