网易首页 > 网易号 > 正文 申请入驻

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

啪!~~~

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。



毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了。

但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战。

而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。



像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:



视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

整体来看InfinityStar的亮点,我们可以总结为如下三点:

  1. 首个在VBench上超越扩散模型的离散自回归视频生成器;
  2. 视频生成不用再“慢慢熬”:从百步去噪到自回归,告别延迟
  3. 任务通吃:文生图、文生视频、图生视频、交互式长视频生成等。

值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~

实测给DiT上了一课的AI视频生成

首先我们来简单了解一下InfinityStar的体验方法。

它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转。
http://opensource.bytedance.com/discord/invite

在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:



接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法

首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:

  • A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……



挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:

  • The cat opened its mouth and made a sound, then licked its nose with its tongue.



视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

通过类似的方法,你也可以快速生成各种风格、影视级的镜头:



视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

包括各种运动场景中,人物的复杂动作也是能hold住:



视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成



视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:

为什么能比DiT快这么多?

InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。

整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分。

1、首帧(外观信息):

视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):

首帧之后的视频内容被切分为若干个连续的视频片段(Clips)。这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模。

最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。



除了整体框架之外,InfinityStar还有两个关键技术。

首先是高效的视觉分词器

为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:

  1. 知识继承 (Knowledge Inheritance)

训练一个离散的视觉分词器(Tokenizer)通常非常耗时。研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。



2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中,信息分布存在严重的“不均衡”问题:大部分细节信息集中在最后几个精细尺度上,导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习,使其过度依赖后续尺度,而忽略了决定全局语义的早期尺度。

为此,InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时,随机丢弃(Discard)后面精细尺度的Token,迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡,显著提升了模型的学习效率和最终的生成质量。



其次是优化的时空自回归Transformer

为了应对视频生成带来的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer本身也进行了三项关键改进:

  1. 语义尺度重复 (Semantic Scale Repetition)研究人员观察到,金字塔中靠前的几个尺度(语义尺度)控制着视频的全局信息,如整体布局和运动趋势。为了强化这一点,InfinityStar在预测时将这些语义尺度重复预测N次,允许模型对视频的全局语义信息进行“反复修正”。这一简单而有效的技巧,极大地增强了生成视频在结构上的一致性和运动的流畅性。
  2. 时空稀疏注意力 (Spacetime Sparse Attention)视频生成,特别是长视频,意味着极长的Token序列,这对注意力机制的计算和显存是巨大的考验。InfinityStar设计了一种高效的时空稀疏注意力,它只关注必要的上下文信息(如前一片段的最后一个尺度),从而在保持时间一致性的同时,大大降低了注意力的计算复杂度,使得高质量、长上下文的视频生成成为可能。
  3. 时空RoPE位置编码 (Spacetime RoPE)为了让模型精确感知Token在复杂时空金字塔中的位置,InfinityStar引入了增强版的RoPE位置编码,它同时编码尺度、时间、高度和宽度信息,为Transformer提供了精确的时空坐标感。

总结来看,InfinityStar之所以能做到比DiT快上一个数量级,关键在于DiT需要20–100步去噪迭代,而InfinityStar是纯自回归“一条过”生成;并且离散token+粗到精预测机制,大幅减少inference step数。

在如此方法之下,实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG两项基准上取得了优异的表现,尤其在位置、物体关系上展现出了明显的优势。



在文生视频(T2V)任务上,InfinityStar在VBench基准上表现优秀,不仅显著超越了先前所有的自回归模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。



在和HunyuanVideo的人类偏好评估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展现出了显著的优势。



在视频生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成一个5s 720p的视频仅需不到1分钟

总而言之,字节的这篇论文证明了离散自回归模型不仅能快,还能做到好,更是打破了只有扩散才能高清的迷思。

论文链接:
https://arxiv.org/pdf/2511.04675

代码链接:
https://github.com/FoundationVision/InfinityStar

申请体验:
http://opensource.bytedance.com/discord/invite

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
BBA集体 “大跳水”!奥迪跌破10万,宝马降27万...网友:感谢新能源!

BBA集体 “大跳水”!奥迪跌破10万,宝马降27万...网友:感谢新能源!

极果酷玩
2026-02-26 16:49:51
河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

极目新闻
2026-02-26 18:32:28
谁抢走了订单?外企扎堆越南后才明白,“世界工厂”只是一场美梦

谁抢走了订单?外企扎堆越南后才明白,“世界工厂”只是一场美梦

百科密码
2026-02-25 15:17:32
官方:C罗收购阿尔梅里亚25%的股份,这些股份归他子公司所有

官方:C罗收购阿尔梅里亚25%的股份,这些股份归他子公司所有

懂球帝
2026-02-26 16:28:06
王楚钦赛后直言:对阵林德是一场丑陋的胜利,面对张禹珍又是恶战

王楚钦赛后直言:对阵林德是一场丑陋的胜利,面对张禹珍又是恶战

乒谈
2026-02-26 23:18:09
世预赛-中国台北男篮爆冷大胜韩国 陈盈骏13+5+4林庭谦18分

世预赛-中国台北男篮爆冷大胜韩国 陈盈骏13+5+4林庭谦18分

醉卧浮生
2026-02-26 20:55:30
连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

头条爆料007
2026-02-26 10:43:43
日本主场哨引发争议,中国男篮赢得太难了!杨毅:无法无天的比赛

日本主场哨引发争议,中国男篮赢得太难了!杨毅:无法无天的比赛

十点街球体育
2026-02-27 03:00:03
400亿!沈腾彻底飞驰了

400亿!沈腾彻底飞驰了

华商韬略
2026-02-25 10:34:36
中方严肃提醒,在俄罗斯的中国人,必须当心普京签署的这条命令

中方严肃提醒,在俄罗斯的中国人,必须当心普京签署的这条命令

小小科普员
2026-02-26 19:37:25
“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

扬子晚报
2026-02-26 11:28:40
俄罗斯与乌克兰之间战争实力对比正在发生变化

俄罗斯与乌克兰之间战争实力对比正在发生变化

名人苟或
2026-02-26 16:22:14
英伟达重挫5.46%,拖累纳指跌超1%,单日蒸发1.77万亿市值,市场"AI泡沫"担忧再起

英伟达重挫5.46%,拖累纳指跌超1%,单日蒸发1.77万亿市值,市场"AI泡沫"担忧再起

金融界
2026-02-27 08:32:16
砍掉核心部件,效率竟然暴涨30%?燃气轮机迎来百年最大革命!

砍掉核心部件,效率竟然暴涨30%?燃气轮机迎来百年最大革命!

科学火箭叔
2026-02-26 20:14:28
两会前夕,9名解放军将领全国人大代表资格被罢免(附完整名单)

两会前夕,9名解放军将领全国人大代表资格被罢免(附完整名单)

翻译大傻
2026-02-26 22:35:34
中到大雪,局部暴雪!河南迎大范围雨雪天气,局部积雪深度可达12厘米,气温骤降近10℃,出行需防滑防冻

中到大雪,局部暴雪!河南迎大范围雨雪天气,局部积雪深度可达12厘米,气温骤降近10℃,出行需防滑防冻

大象新闻
2026-02-27 08:46:16
不装了?FIBA官方竟称中国队偷走一场胜利 媒体人怒斥:无法无天

不装了?FIBA官方竟称中国队偷走一场胜利 媒体人怒斥:无法无天

念洲
2026-02-27 07:49:08
“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

界面新闻
2026-02-26 18:36:33
英国女婿疯狂爱上贵州砂糖橘,春节期间几乎一日三餐当饭吃,一个月后把自己吃成“小黄人”

英国女婿疯狂爱上贵州砂糖橘,春节期间几乎一日三餐当饭吃,一个月后把自己吃成“小黄人”

观威海
2026-02-26 10:26:04
全球警戒!美军疯狂换装M7,一场针对大国的火力革命,已经开始!

全球警戒!美军疯狂换装M7,一场针对大国的火力革命,已经开始!

璠爷财事通
2026-02-26 19:00:04
2026-02-27 09:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12205文章数 176396关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

魅族手机,终成弃子?

汽车要闻

40岁的吉利,不惑于内外

态度原创

房产
时尚
旅游
数码
亲子

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

今年春天最美搭配:西装+半裙,怎么穿都好看!

旅游要闻

云南宁洱有个“搬”出来的幸福渔村

数码要闻

华硕发布NUC 16 for Windows 365迷你主机:0.7升,支持三屏输出

亲子要闻

不知道是真是假,社会百态与未来观点

无障碍浏览 进入关怀版