网易首页 > 网易号 > 正文 申请入驻

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式

0
分享至

  • NAR团队 投稿
    量子位 | 公众号 QbitAI

在图像/视频生成任务中,传统的“下一个token预测”方法正面临严重的效率瓶颈。

怎么办?

来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。与传统的“下一个token预测”不同,NAR模型采用了“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。

具体来说,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种生成顺序不仅保留了视觉内容的空间和时间局部性,还允许模型在生成过程中并行预测多个相邻的token。

为了实现这一点,研究人员引入了维度导向的解码头,每个头负责在空间或时间的一个正交维度上预测下一个token。

通过这种方式,NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。

下面具体来看。

从“下一个token”到“下一个邻域”

在当今的AI领域,视觉生成任务(如图像和视频生成)正变得越来越重要。无论是生成逼真的图像,还是创造连贯的视频,AI模型的表现都在不断提升。

然而,现有的视觉生成模型,尤其是基于自回归(Autoregressive, AR)的模型,面临着严重的效率瓶颈

传统的自回归模型通常采用“下一个token预测”的范式,即按照光栅顺序逐个生成图像或视频的token。这种方法虽然简单直观,但在生成高分辨率图像或长视频时,模型需要进行数千次甚至数万次的前向计算,导致生成速度极其缓慢。

更糟糕的是,现有的加速方法往往以牺牲生成质量为代价。

例如,一些方法尝试通过并行生成多个token来提高效率,但由于邻近图像token之间的强相关性以及上下文信息的缺失,这种方法容易导致生成质量下降。

因此,如何在保持高质量生成的同时,大幅提升生成效率,成为了视觉生成领域的一个关键挑战

为了解决上述问题,研究人员提出了邻近自回归建模(NAR)。

正如一开头提到的,通过引入维度导向的解码头,使每个头负责在空间或时间的一个正交维度上预测下一个token,最终让NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。

值得一提的是,维度导向的解码头设计非常灵活,能够轻松扩展到更高维的视觉内容生成

例如,在视频生成任务中,视频可以被视为三维数据(时间、行、列),NAR模型只需增加一个时间维度的解码头,即可在时间、行、列三个正交维度上并行生成token。

对于由 t×n×n 个token表示的视频,NAR模型仅需 2n+t−2 步即可完成生成过程,远远少于传统“下一个token预测”模型所需的 tn2步。

这一显著的效率提升使得NAR模型在处理高分辨率视频生成任务时具有极大的优势。

13.8倍吞吐提升

研究人员在多个视觉生成任务上对NAR模型进行了全面评估,实验结果令人振奋:

1、类别图像生成

在ImageNet 256×256数据集上,拥有372M参数的NAR-L取得了比拥有1.4B参数的LlamaGen-XXL更低的FID(3.06 vs. 3.09),同时将生成步数减少了87.8%并带来了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。

与VAR-d16模型相比,NAR-M取得了更低的FID的同时(3.27 vs. 3.30),能带来92%的吞吐提升(248.5 images/s vs. 129.3 images/s)。

这说明与现有的自回归生成方法相比,NAR模型在生成效率和质量上均取得了显著提升。

2、类别视频生成

在UCF-101数据集上,NAR模型相比基于“下一个词预测”(next-token prediction)的自回归模型在生成步骤上减少了97.3%。

相比并行解码方法PAR,NAR在FVD更低的同时将吞吐提升了8.6倍。

这得益于NAR模型在时间维度上的并行生成能力,确保了视频帧之间的连贯性和高质量生成。

3、文本到图像生成

在GenEval基准测试中,NAR模型仅使用了0.4%的训练数据(6M)便获得了和Stable Diffusion v1.5相持平的综合得分。

与参数量更大且拥有1.4B训练数据的Chameleon-7B模型相比,NAR的综合得分更高(0.43 vs. 0.39)且将吞吐率提高了166倍。

这些实验结果不仅证明了NAR模型在生成效率上的巨大优势,还展示了其在生成质量上的卓越表现。

概括而言,NAR模型为视觉生成任务提供了一种高效且高质量的解决方案,有望在未来的AI应用中发挥重要作用。

更多细节欢迎查阅原论文。

论文地址:
https://www.arxiv.org/abs/2503.10696
项目主页:
https://yuanyu0.github.io/nar/
代码地址:
https://github.com/ThisisBillhe/NAR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
54岁瓜帅仰天长叹:曼城4失良机放生蓝军!金球先生暴怒:本该4-0

54岁瓜帅仰天长叹:曼城4失良机放生蓝军!金球先生暴怒:本该4-0

我爱英超
2026-01-05 07:17:55
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
内幕曝光:美军使用黑科技瘫痪电网,行动精确0.1秒……三角洲特种部队再次书写奇迹

内幕曝光:美军使用黑科技瘫痪电网,行动精确0.1秒……三角洲特种部队再次书写奇迹

大洛杉矶LA
2026-01-04 05:17:41
“没见过这么离谱的”!深夜零下20℃,数百游客滞留!两知名景区双双被挤爆,最新致歉→

“没见过这么离谱的”!深夜零下20℃,数百游客滞留!两知名景区双双被挤爆,最新致歉→

新民晚报
2026-01-04 14:29:18
中美都在给对方挖坑!中国已经在台海出牌:特朗普正急着抓筹码

中美都在给对方挖坑!中国已经在台海出牌:特朗普正急着抓筹码

星辰大海路上的种花家
2026-01-04 11:04:18
维尔茨:不满意今天的结果;当时就确定自己的进球越位在先

维尔茨:不满意今天的结果;当时就确定自己的进球越位在先

懂球帝
2026-01-05 01:55:41
周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

知鉴明史
2025-12-30 18:33:55
全世界就中国有!曾被老百姓当柴烧,2023年洞庭湖又发现两三百棵

全世界就中国有!曾被老百姓当柴烧,2023年洞庭湖又发现两三百棵

北纬的咖啡豆
2026-01-04 14:49:26
被四家医院判定为肺癌并要求手求,最后的检查结果救了我一命!

被四家医院判定为肺癌并要求手求,最后的检查结果救了我一命!

坠入二次元的海洋
2026-01-01 11:10:01
这才是特别军事行动?美军应答器全关3小时抓获马杜罗,专家沉默

这才是特别军事行动?美军应答器全关3小时抓获马杜罗,专家沉默

眼光很亮
2026-01-03 22:53:36
汪峰女儿生日派对惊喜不断,章子怡新书也来助阵!

汪峰女儿生日派对惊喜不断,章子怡新书也来助阵!

舞指飞扬
2026-01-05 09:59:35
1963年,粟裕不满侄子老来自己家度假,叮嘱:以后不要老往北京跑

1963年,粟裕不满侄子老来自己家度假,叮嘱:以后不要老往北京跑

简史档案馆
2026-01-04 11:05:03
“抵制日货”的声音为什么消失了?答案残酷:日货已经不够格了

“抵制日货”的声音为什么消失了?答案残酷:日货已经不够格了

跳跳历史
2025-12-29 12:20:25
TVB万千星辉奖项出炉!佘诗曼四封视后成赢家,黄宗泽爆冷拿视帝

TVB万千星辉奖项出炉!佘诗曼四封视后成赢家,黄宗泽爆冷拿视帝

萌神木木
2026-01-04 23:42:07
12瓶砍半到6瓶,平价茅台上线先斩黄牛

12瓶砍半到6瓶,平价茅台上线先斩黄牛

观察者网
2026-01-04 13:46:08
多国将与台“断交”?美媒爆料;大陆军演有惊喜,台俩高官或下台

多国将与台“断交”?美媒爆料;大陆军演有惊喜,台俩高官或下台

凡知
2026-01-04 18:05:04
辣眼睛!长沙一20年同学会,15秒现场疯狂亲吻视频流出,登上热搜

辣眼睛!长沙一20年同学会,15秒现场疯狂亲吻视频流出,登上热搜

火山詩话
2026-01-04 06:41:49
金宇彬与申敏儿西班牙度蜜月被偶遇,又高又帅,手上婚戒显眼

金宇彬与申敏儿西班牙度蜜月被偶遇,又高又帅,手上婚戒显眼

振华观史
2026-01-05 10:43:57
教育部:拟设15所本科高等学校

教育部:拟设15所本科高等学校

界面新闻
2026-01-04 19:16:15
2026-01-05 12:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
11969文章数 176356关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

头条要闻

媒体:美国捉拿马杜罗后 多位专家示警赖清德

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

不是9S是8X!极氪全新高性能旗舰SUV命名官宣

态度原创

房产
旅游
本地
艺术
公开课

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

旅游要闻

乌拉圭记者感叹:中国旅游胜地令人心驰神往

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

艺术要闻

19幅 列宾美院学生优秀毕业作品

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版