网易首页 > 网易号 > 正文 申请入驻

视觉生成的另一条路:Infinity 自回归架构的原理与实践

0
分享至


作者 | 韩剑

审校|罗燕珊

策划 | AICon 全球人工智能开发与应用大会

以 ChatGPT、DeepSeek 为代表的大语言模型取得了巨大的成功,掀起了全球新一轮 AI 浪潮。但是在视觉生成领域,目前主流的方法却是一直以扩散模型为主导。与大语言模型采取相同技术路线的视觉自回归方法因为具有更好的 scaling 特性,能够统一理解 & 生成任务,隐藏着巨大的潜力,正受到人们越来越多的重视。

本文整理自字节跳动商业化技术 AIGC 算法工程师韩剑 6 月份在 AICon 2025 北京站的分享《Infinity:视觉自回归生成新路线》。本次演讲以被选为 CVPR 2025 Oral 的工作 Infinity 为例,详细介绍自回归视觉生成的底层技术原理。并以图像生成和视频生成两个具体场景,分享最新的研究成果和相关思考。

12 月 19~20 日的 AICon 北京站 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

自回归模型和 Scaling Law

自回归之所以得名,是因为模型将自己预测的 token 作为输入,预测下一个 token。然后再把预测结果作为下一步的输入,继续迭代。这个循环天然契合语言的离散序列特性。然而视觉信号没有天然的离散单位,于是必须把图像先“翻译”成 token:先用编码器压缩,再用解码器重建,把连续像素变成一串可索引的离散符号,才能套进自回归的框架。过去的工作大多沿用这条思路:要么直接以像素为 token,要么借助编码器 - 解码器把图像离散化后再做下一个标记预测,由此衍生出自回归文本到图像或类别到图像任务上的早期范式。


谈到自回归模型,就无法回避 Scaling Law——它正是我们对自回归模型持续抱有热情的核心原因。在语言模型中,我们发现,只要模型、数据与算力三者中的任意一项扩大,而其他两项保持不变,性能便会按幂律提升;在小规模实验里测得的曲线,可以准确预测大规模训练的最终损失与精度。凭借这条规律,我们得以用可控的小规模试验推演“堆大模型、堆大数据、堆大算力”后的收益,从而笃定地继续扩张。


在视觉生成领域,这条规律却一度显得模糊。早期的 iGPT 直接以像素为 token,沿光栅顺序逐点自回归,结果受限于分辨率——token 数量爆炸,只能生成极小图像。随后出现的 VQVAE 引入矢量量化码本,将连续特征映射为离散索引,把空间分辨率压缩 8 倍乃至 16 倍,显著减少了 token 数;VQGAN 更进一步,用判别器强化量化后的重建质量。到了 2022 年,Google 的 Parti 把这一范式推向 20 B 参数规模,成为当时的里程碑。然而,这些努力仍留下四个悬而未决的问题:其一,生成质量在高分辨率下仍落后于扩散模型 DiT;其二,视觉离散 token 的 Scaling Law 尚未被系统验证;其三,光栅扫描顺序导致推理步数过长,效率低下;其四,从直觉上讲,人类看图是整体感知,而非逐行逐列地扫读,光栅顺序似乎天然与视觉模态相悖。


视觉自回归 v.s. 扩散模型

画过素描的人都知道,起稿往往先用几根轻淡的线勾出骨架,再逐层补上细节;视觉自回归模型 VAR 采用的正是这种“由粗到细”的思路。我们把一张图像拆成多级分辨率——从模糊的小图开始,逐级放大到清晰大图——让网络像人眼一样先抓住整体结构,再慢慢补全纹理。相比 Parti 那种全程在单分辨率上按光栅顺序逐点描摹的做法,VAR 的多尺度透视过程显然更贴近图像本身的物理属性。


具体实现上,我们把任务拆成两块。第一块是改进后的 VQ-VAE:它不再是扁平的单一尺度,而是金字塔式的层级结构,把输入图像编码成 R₁、R₂……Rₖ 一系列逐级放大的特征残差。残差设计保证了每一级只需补全上一级尚未刻画的信息,既省 token,又易收敛。第二块是专为 VAR 定制的 Transformer:它不再一次只猜下一个 token,而是一次并行地预测一整片 token——例如 1×1、2×2、3×3 的小方块——从而把迭代次数压到传统逐点方式的十分之一。


在 ImageNet 的基准上,VAR 首次在生成质量上超过了 DiT,这一点已经给了我们足够的惊喜。更关键的是,它展现出清晰而稳健的 Scaling 曲线:把模型继续做大,性能仍按幂律抬升。这条曲线像一盏绿灯,让我们继续加码算力与参数。


扩散模型的核心思想是在原始分辨率上给图像逐步添加高斯噪声,把清晰样本 X₀ 一路加噪成高斯分布;随后训练一个网络反向去噪,从 Xₜ₋₁ 一步步还原出 X₀。整个过程在同一尺度完成,空间分辨率保持不变。


LDM 把这一思路引入条件生成:编码器先把图像压进潜空间,再在潜空间里做扩散,条件是文本、深度图或其他语义信号。注意,这里所有表征都是连续的,而 VAR 或我们稍后谈到的 Infinity 则坚持离散 token;LDM 也是单尺度,而我们的工作有层级金字塔。


DiT 进一步把 LDM 里的 U-Net 换成 Transformer,关键改动在于用层归一化替代批归一化,并调整整体结构,使模型在扩大规模时仍能优雅地服从 Scaling Law。沿着这条路线,人们把模型、数据、算力一路推向极限,最终孕育了 Sora,也让扩散方案彻底点燃了视觉生成领域。


把 VAR 和扩散放在同一张流程图里,二者都在“把噪声变成图”,但是 VAR 从低分辨率逐级放大,每次只在残差里补细节;扩散则始终维持原始分辨率,从纯噪声开始一步步去噪。

VAR 的优势在于训练并行度高:所有尺度一次喂给网络,不像 DiT 必须按时间步拆成多次前向。同时,由粗到细的过程与人类直觉一致,解释性强。代价是误差会沿着尺度累积;扩散在同一分辨率反复迭代,误差可被后续步骤修正,但训练和推理的步数开销更大。

Infinity:视觉白回归生成新路线

把 VAR 从类别到图像扩展到文本到图像,我们遇到了三个最棘手的障碍:离散 VAE 的重建质量、自回归的累积误差,以及高分辨率和任意长宽比的支持。VAR 的原始 VQ-VAE 在 256×256 或 512×512 方图上还能勉强应付,一旦拉到 1024×1024 或自由长宽比,高频细节立刻崩坏;更严重的是,teacher-forcing 训练没有显式纠错机制,早期 token 的错误会一路放大,最终输出面目全非。


为此,我们把整个框架进行了升级,核心是“bitwise tokenizer + bitwise classifier”。

Tokenizer 侧,我们放弃了传统 VQ 的码本,直接对特征做符号量化:把每个通道的激活按正负号压成 ±1,形成 1-bit 表示。由于没有码本,词表大小随通道数指数增长(d 通道即 2^d 种组合),且不存在码本利用率问题。配合多级残差金字塔,1×1、2×2、4×4 … 逐级上采样,16 步即可覆盖 1024×1024 图像;32 通道时重建质量已超越 SD 的连续 VAE。


词表大到 2^32 时,传统分类头参数会反超主干 Transformer。我们把 token 拆成逐位预测:对每个通道独立做二元分类,而不是一次性预测整个组合索引。这样不仅把参数量从 100 B 降到可接受范围,还天然对微小扰动鲁棒——翻转一位只影响 1 bit,而非整个索引突变。


为了抑制累积误差,我们在训练阶段引入 Bitwise Self-Correction:每一步的预测结果会被再次量化并回传,网络学会在下一轮纠正前一步的位级错误。推理时这一机制同样生效,显著拉低误差扩散。


这套 Infinity 方案在 1024×1024 上实现了与 DiT 可比甚至更优的 FID,且支持任意长宽比,真正让 VAR 从类别生成走向通用文本到图像。


为了弥合训练 - 推理的不一致,我们在训练阶段显式模拟预测误差。做法很简单:把 1×1 token 在通道维展开后,随机翻转 20 % 的比特符号,再用被扰动的重建特征继续下一级量化。这样网络在每一步都能学会纠正位级错误,推理时误差不再逐级放大。加入这一 self-correction 后,同参数下的 FID 从 9 掉到 3,ImageReward 同步抬升;在高步数、高分辨率设置下,肉眼也能看出明显差异。

词表大小对生成的影响也出乎意料。我们把对比实验锁定在 2¹⁶ 和 2³² 两档,分别训练 125 M、361 M、2.22 B 三种体量。结果显示:小模型在小词表上更好,但随着算力增加,大小词表的差距迅速收敛;当模型继续放大,大词表开始反超。一句话,大模型值得用大词表,也值得继续加算力。验证集损失与人工指标呈 0.98 的线性相关,再次印证了 Scaling 的可靠性。


后训练阶段我们简单跑了一版 DPO,画质和细节会再上一个台阶,说明对齐工作同样适用于 VAR 框架。


最后是速度。得益于并行解码,2B 的 Infinity 在 1024² 上只需 0.8 s,20 B 版本也只要 3 s,比同量级 DiT 快 3.7 倍。把同样的思路搬到视频,优势依然明显。在 T2I Arena 里,我们这个研究型小项目已与多款闭源 DiT 打平,证明 VAR 路线不仅能跑得快,也能跑得好。


分析和思考

从 VAR 到 Infinity,我们把离散自回归的上限往前推了一大步。新的 tokenizer 在保持离散表示的同时,已逼近连续 VAE 的重建质量,并能轻松扩展百万级词表,直接带来更细腻的纹理和更准确的指令遵循。更大模型、更长训练继续兑现 scaling 红利,生成质量与 DiT 同档而推理更快。至此,离散自回归不再是“小而快”的权宜方案,它已经能在高分辨率文本到图像任务中与扩散模型正面竞争。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

会议预告

12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闻所未闻:许家印居然是这样到基层视察的!

闻所未闻:许家印居然是这样到基层视察的!

仕道
2026-04-29 12:31:52
迪瓦茨为何当初不选东契奇? 给出的两条理由如今匪夷所思

迪瓦茨为何当初不选东契奇? 给出的两条理由如今匪夷所思

仰卧撑FTUer
2026-04-29 09:57:03
蓝白新北市长初选揭晓,蓝营赢了;郑丽文再谈两岸统一,言论惊人

蓝白新北市长初选揭晓,蓝营赢了;郑丽文再谈两岸统一,言论惊人

共工之锚
2026-04-29 00:20:15
恩里克:我问助教,次回合我们要进几个球才能赢?答案是三个

恩里克:我问助教,次回合我们要进几个球才能赢?答案是三个

兰亭墨未干
2026-04-29 09:14:27
憋了72小时!文旅部掀桌子,12个5A要被摘牌?

憋了72小时!文旅部掀桌子,12个5A要被摘牌?

离离言几许
2026-04-29 07:17:58
“爸爸昨晚打妈妈,妈妈疼得直叫”,孩子的话让姥姥脸红:不敢说

“爸爸昨晚打妈妈,妈妈疼得直叫”,孩子的话让姥姥脸红:不敢说

大果小果妈妈
2026-02-04 13:32:40
全场5中1!没进攻没防守,媒体人:广东队崩溃从他挡拆被刷爆开始

全场5中1!没进攻没防守,媒体人:广东队崩溃从他挡拆被刷爆开始

南海浪花
2026-04-29 09:17:33
别盲目买电车!比亚迪海鸥车主实测2万公里,账算完反而多花几千

别盲目买电车!比亚迪海鸥车主实测2万公里,账算完反而多花几千

复转这些年
2026-04-23 23:36:08
李奇微晚年曾说过,战斗力一流的国家只有三个,其他的都不值一提

李奇微晚年曾说过,战斗力一流的国家只有三个,其他的都不值一提

老范谈史
2026-04-23 17:35:54
WOC!东契奇不打了!无限期休战!湖人难了...

WOC!东契奇不打了!无限期休战!湖人难了...

冷桂零落
2026-04-29 13:23:58
蒋家后人要在奉化动土!半世纪未归根,两蒋大迁徙卡壳难圆落叶梦

蒋家后人要在奉化动土!半世纪未归根,两蒋大迁徙卡壳难圆落叶梦

闻识
2026-04-24 11:22:44
阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

调侃国际观点
2026-04-29 01:14:08
倒查13年,央国企开始慌了

倒查13年,央国企开始慌了

职场资深秘书
2026-04-28 22:06:07
全网封禁,网红白冰塌房早有预兆!知情人透露更多,爆火后无底线

全网封禁,网红白冰塌房早有预兆!知情人透露更多,爆火后无底线

社会日日鲜
2026-04-29 08:20:03
李嘉欣儿子许建彤和父亲许晋亨倚着黑色豪车闲聊

李嘉欣儿子许建彤和父亲许晋亨倚着黑色豪车闲聊

娱你同欢
2026-04-28 23:54:29
金价急跌!业内人士分析——

金价急跌!业内人士分析——

BRTV新闻
2026-04-28 15:21:59
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
李想称理想领先大众两代?大众高管回应:仅价格与营销领先

李想称理想领先大众两代?大众高管回应:仅价格与营销领先

鞭牛士
2026-04-27 09:59:06
主场输广州!杜锋“哼哈二将”合砍0分,球迷:你俩想做掉书记?

主场输广州!杜锋“哼哈二将”合砍0分,球迷:你俩想做掉书记?

弄月公子
2026-04-28 22:02:39
劳务派遣在央国企杀疯了!

劳务派遣在央国企杀疯了!

灯锦年
2026-04-21 17:56:52
2026-04-29 14:59:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1466文章数 148关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

俄"受制裁"富豪的游艇通过霍尔木兹海峡 或获美伊默许

头条要闻

俄"受制裁"富豪的游艇通过霍尔木兹海峡 或获美伊默许

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

游戏
教育
时尚
房产
手机

梦幻西游2026年520锦衣祥瑞正式亮相 沙子哥炸出畅玩服第一项链

教育要闻

刚刚,南京市教育局重磅发布!

刘浩存:明媚中绽放

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

手机要闻

小米两款新机曝光?这是什么系列,好难猜啊

无障碍浏览 进入关怀版