网易首页 > 网易号 > 正文 申请入驻

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式

0
分享至

  • NAR团队 投稿
    量子位 | 公众号 QbitAI

在图像/视频生成任务中,传统的“下一个token预测”方法正面临严重的效率瓶颈。

怎么办?

来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。与传统的“下一个token预测”不同,NAR模型采用了“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。

具体来说,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种生成顺序不仅保留了视觉内容的空间和时间局部性,还允许模型在生成过程中并行预测多个相邻的token。

为了实现这一点,研究人员引入了维度导向的解码头,每个头负责在空间或时间的一个正交维度上预测下一个token。

通过这种方式,NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。

下面具体来看。

从“下一个token”到“下一个邻域”

在当今的AI领域,视觉生成任务(如图像和视频生成)正变得越来越重要。无论是生成逼真的图像,还是创造连贯的视频,AI模型的表现都在不断提升。

然而,现有的视觉生成模型,尤其是基于自回归(Autoregressive, AR)的模型,面临着严重的效率瓶颈

传统的自回归模型通常采用“下一个token预测”的范式,即按照光栅顺序逐个生成图像或视频的token。这种方法虽然简单直观,但在生成高分辨率图像或长视频时,模型需要进行数千次甚至数万次的前向计算,导致生成速度极其缓慢。

更糟糕的是,现有的加速方法往往以牺牲生成质量为代价。

例如,一些方法尝试通过并行生成多个token来提高效率,但由于邻近图像token之间的强相关性以及上下文信息的缺失,这种方法容易导致生成质量下降。

因此,如何在保持高质量生成的同时,大幅提升生成效率,成为了视觉生成领域的一个关键挑战

为了解决上述问题,研究人员提出了邻近自回归建模(NAR)。

正如一开头提到的,通过引入维度导向的解码头,使每个头负责在空间或时间的一个正交维度上预测下一个token,最终让NAR模型能够在每一步中并行生成多个token,从而大幅减少了生成所需的模型前向计算步骤。

值得一提的是,维度导向的解码头设计非常灵活,能够轻松扩展到更高维的视觉内容生成

例如,在视频生成任务中,视频可以被视为三维数据(时间、行、列),NAR模型只需增加一个时间维度的解码头,即可在时间、行、列三个正交维度上并行生成token。

对于由 t×n×n 个token表示的视频,NAR模型仅需 2n+t−2 步即可完成生成过程,远远少于传统“下一个token预测”模型所需的 tn2步。

这一显著的效率提升使得NAR模型在处理高分辨率视频生成任务时具有极大的优势。

13.8倍吞吐提升

研究人员在多个视觉生成任务上对NAR模型进行了全面评估,实验结果令人振奋:

1、类别图像生成

在ImageNet 256×256数据集上,拥有372M参数的NAR-L取得了比拥有1.4B参数的LlamaGen-XXL更低的FID(3.06 vs. 3.09),同时将生成步数减少了87.8%并带来了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。

与VAR-d16模型相比,NAR-M取得了更低的FID的同时(3.27 vs. 3.30),能带来92%的吞吐提升(248.5 images/s vs. 129.3 images/s)。

这说明与现有的自回归生成方法相比,NAR模型在生成效率和质量上均取得了显著提升。

2、类别视频生成

在UCF-101数据集上,NAR模型相比基于“下一个词预测”(next-token prediction)的自回归模型在生成步骤上减少了97.3%。

相比并行解码方法PAR,NAR在FVD更低的同时将吞吐提升了8.6倍。

这得益于NAR模型在时间维度上的并行生成能力,确保了视频帧之间的连贯性和高质量生成。

3、文本到图像生成

在GenEval基准测试中,NAR模型仅使用了0.4%的训练数据(6M)便获得了和Stable Diffusion v1.5相持平的综合得分。

与参数量更大且拥有1.4B训练数据的Chameleon-7B模型相比,NAR的综合得分更高(0.43 vs. 0.39)且将吞吐率提高了166倍。

这些实验结果不仅证明了NAR模型在生成效率上的巨大优势,还展示了其在生成质量上的卓越表现。

概括而言,NAR模型为视觉生成任务提供了一种高效且高质量的解决方案,有望在未来的AI应用中发挥重要作用。

更多细节欢迎查阅原论文。

论文地址:
https://www.arxiv.org/abs/2503.10696
项目主页:
https://yuanyu0.github.io/nar/
代码地址:
https://github.com/ThisisBillhe/NAR

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东旋转门家长已社死,信息被扒,官媒怒批,不止道歉这么简单!

山东旋转门家长已社死,信息被扒,官媒怒批,不止道歉这么简单!

阿凫爱吐槽
2026-04-09 05:08:54
女子自助餐一次吃12个汉堡,第三次光顾被老板拒绝接待后发帖吐槽,老板称对方引导舆论遭网友骚扰,已报警

女子自助餐一次吃12个汉堡,第三次光顾被老板拒绝接待后发帖吐槽,老板称对方引导舆论遭网友骚扰,已报警

极目新闻
2026-04-08 11:40:06
停火骗局?以色列趁伊朗放松警惕凌晨发起偷袭,伊朗这次损失惨重

停火骗局?以色列趁伊朗放松警惕凌晨发起偷袭,伊朗这次损失惨重

健身狂人
2026-04-09 00:01:11
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
中国“退步”最快的城市:曾与上海、南京齐名,如今沦为三线城市

中国“退步”最快的城市:曾与上海、南京齐名,如今沦为三线城市

潮鹿逐梦
2026-04-02 18:05:04
解放前,游击队员有多谨慎?一老干部回忆:在老乡家不准吃鱼吃肉

解放前,游击队员有多谨慎?一老干部回忆:在老乡家不准吃鱼吃肉

掠影后有感
2026-04-08 10:04:20
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
美载人绕月飞船开始返回地球之旅

美载人绕月飞船开始返回地球之旅

界面新闻
2026-04-08 11:48:23
郑丽文访问大陆,白岩松11字锐评一针见血,戳中海峡两岸人心窝

郑丽文访问大陆,白岩松11字锐评一针见血,戳中海峡两岸人心窝

小徐讲八卦
2026-04-09 06:09:20
特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

山河路口
2026-04-07 22:35:19
她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

以茶带书
2026-03-29 20:58:52
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
张兰生日!情绪低落发文,儿子儿媳没送祝福,只有一人记得她生日

张兰生日!情绪低落发文,儿子儿媳没送祝福,只有一人记得她生日

胡一舸南游y
2026-04-08 16:13:27
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
越南选出新领导层,哪些变与不变?

越南选出新领导层,哪些变与不变?

新民周刊
2026-04-08 09:10:05
清明假期一车五人身亡!监控还原事故经过,大家为女司机感到疑惑

清明假期一车五人身亡!监控还原事故经过,大家为女司机感到疑惑

社会日日鲜
2026-04-07 21:05:02
为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

健身狂人
2026-04-08 08:51:15
57岁郑丽文懂审美!穿紫色西服很干练,一举一动都透着女强人气场

57岁郑丽文懂审美!穿紫色西服很干练,一举一动都透着女强人气场

八八尚语
2026-04-08 10:25:52
CBA最新消息!广东宏远旧将被开除,刘维伟惹争议

CBA最新消息!广东宏远旧将被开除,刘维伟惹争议

体坛瞎白话
2026-04-09 07:51:44
2026-04-09 08:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12443文章数 176446关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

一天之内 以军空袭黎巴嫩致254死1165伤

头条要闻

一天之内 以军空袭黎巴嫩致254死1165伤

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

局势再升级!霍尔木兹海峡关闭

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

健康
教育
手机
游戏
公开课

干细胞抗衰4大误区,90%的人都中招

教育要闻

35岁宝妈被迫带娃裸辞?她用一本书,从人生低谷逆袭事业巅峰

手机要闻

从三足鼎立到四分天下,荣耀入局强势改变格局

索尼疑似在PS5测试版中 调整了系统主页面UI

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版