网易首页 > 网易号 > 正文 申请入驻

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频

0
分享至

来源:市场资讯

(来源:量子位)

啪!~~~

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。


毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了。

但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战。

而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。


像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

整体来看InfinityStar的亮点,我们可以总结为如下三点:

值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~

首先我们来简单了解一下InfinityStar的体验方法。

它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转。

http://opensource.bytedance.com/discord/invite

在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:


接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法

首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:


挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

通过类似的方法,你也可以快速生成各种风格、影视级的镜头:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

包括各种运动场景中,人物的复杂动作也是能hold住:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:

InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。

整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分。

1、首帧(外观信息):

视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):

首帧之后的视频内容被切分为若干个连续的视频片段(Clips)。这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模。

最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。


除了整体框架之外,InfinityStar还有两个关键技术。

首先是高效的视觉分词器

为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:

训练一个离散的视觉分词器(Tokenizer)通常非常耗时。研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。


2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中,信息分布存在严重的“不均衡”问题:大部分细节信息集中在最后几个精细尺度上,导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习,使其过度依赖后续尺度,而忽略了决定全局语义的早期尺度。

为此,InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时,随机丢弃(Discard)后面精细尺度的Token,迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡,显著提升了模型的学习效率和最终的生成质量。


其次是优化的时空自回归Transformer

为了应对视频生成带来的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer本身也进行了三项关键改进:

总结来看,InfinityStar之所以能做到比DiT快上一个数量级,关键在于DiT需要20–100步去噪迭代,而InfinityStar是纯自回归“一条过”生成;并且离散token+粗到精预测机制,大幅减少inference step数。

在如此方法之下,实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG两项基准上取得了优异的表现,尤其在位置、物体关系上展现出了明显的优势。


在文生视频(T2V)任务上,InfinityStar在VBench基准上表现优秀,不仅显著超越了先前所有的自回归模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。


在和HunyuanVideo的人类偏好评估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展现出了显著的优势。


在视频生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成一个5s 720p的视频仅需不到1分钟

总而言之,字节的这篇论文证明了离散自回归模型不仅能快,还能做到好,更是打破了只有扩散才能高清的迷思。

论文链接:

https://arxiv.org/pdf/2511.04675

代码链接:

https://github.com/FoundationVision/InfinityStar

申请体验:

http://opensource.bytedance.com/discord/invite

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邬君梅坦言丈夫病逝!两人做9次试管失败,30年跨国婚姻留遗憾

邬君梅坦言丈夫病逝!两人做9次试管失败,30年跨国婚姻留遗憾

一盅情怀
2026-02-06 16:47:29
马未都:我身价至少100亿,但这点钱,跟我母亲比,我就是个贫农

马未都:我身价至少100亿,但这点钱,跟我母亲比,我就是个贫农

忠于法纪
2026-01-15 22:08:28
斯诺克见证新王!中国选手本赛季第4次夺冠,1项神奇纪录或延续?

斯诺克见证新王!中国选手本赛季第4次夺冠,1项神奇纪录或延续?

刘姚尧的文字城堡
2026-02-07 07:32:52
破案!黄明依下半场被杜锋弃用的原因找到,广东球迷说出大实话

破案!黄明依下半场被杜锋弃用的原因找到,广东球迷说出大实话

后仰大风车
2026-02-07 08:15:13
在北京,周末夫妻越来越多了

在北京,周末夫妻越来越多了

朗玥
2026-02-06 23:54:23
68人被交易破纪录!截止日后买断市场来袭 8条大鱼中数人适配火箭

68人被交易破纪录!截止日后买断市场来袭 8条大鱼中数人适配火箭

锅子篮球
2026-02-06 19:28:10
我邻居有了婚外情:真正能打败婚外情的不是原配,也不是性,而是

我邻居有了婚外情:真正能打败婚外情的不是原配,也不是性,而是

诗词中国
2026-02-05 19:02:28
王阳明:摆脱精神内耗最好的方法,不是运动、独处,而是......

王阳明:摆脱精神内耗最好的方法,不是运动、独处,而是......

诗词中国
2026-02-01 19:42:22
吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

荆医生科普
2026-02-05 05:05:06
江苏园博园俩野猫把景观池当“自助餐厅”,娴熟捕捉锦鲤,景区:不干涉,抓得到是本事

江苏园博园俩野猫把景观池当“自助餐厅”,娴熟捕捉锦鲤,景区:不干涉,抓得到是本事

台州交通广播
2026-02-06 23:14:01
张柏芝长子恋情实锤!18岁Lucas地铁宠溺女友,颜值不及谢霆锋被嘲

张柏芝长子恋情实锤!18岁Lucas地铁宠溺女友,颜值不及谢霆锋被嘲

八卦王者
2026-02-06 15:18:24
A股仅此一家,人形机器人严重低估大龙头,机构重仓抢筹中……

A股仅此一家,人形机器人严重低估大龙头,机构重仓抢筹中……

财报翻译官
2026-02-07 12:07:55
离开了中国好几天,斯塔默是越想越不对劲,在国会议会上罕见发飙

离开了中国好几天,斯塔默是越想越不对劲,在国会议会上罕见发飙

墨兰史书
2026-02-06 20:25:03
湖北精神病医院骗保事件,第一条大鱼浮出水面

湖北精神病医院骗保事件,第一条大鱼浮出水面

数字财经智库
2026-02-07 09:12:50
增长10倍!2026年1.6T光模块需求3000万只 8大龙头已实锤量产出货

增长10倍!2026年1.6T光模块需求3000万只 8大龙头已实锤量产出货

元芳说投资
2026-02-05 06:30:08
拉锯战!快船三分12中2仅落后1分:伦纳德14分3助,替补仅8分

拉锯战!快船三分12中2仅落后1分:伦纳德14分3助,替补仅8分

体坛小李
2026-02-07 12:22:02
明明位置都还回来了,肖战为什么还是不入座?

明明位置都还回来了,肖战为什么还是不入座?

东方不败然多多
2026-02-07 02:29:29
世界首个!中国正式强制禁止隐藏式门把手:明年1月1日起实施 特斯拉、小米等都要改了

世界首个!中国正式强制禁止隐藏式门把手:明年1月1日起实施 特斯拉、小米等都要改了

快科技
2026-02-05 16:10:46
男子年会抽中万元手机打开竟变瓷砖

男子年会抽中万元手机打开竟变瓷砖

深圳晚报
2026-02-06 16:51:59
遭父母断网后,印度3姐妹深夜跳下9楼!其父:她们极度痴迷“韩流”

遭父母断网后,印度3姐妹深夜跳下9楼!其父:她们极度痴迷“韩流”

红星新闻
2026-02-06 12:27:21
2026-02-07 13:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2141091文章数 5386关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

手机
教育
亲子
游戏
时尚

手机要闻

1月性价比榜分析,一加、iQOO、REDMI、realme谁会笑到最后

教育要闻

2026年小学学位紧张,幼儿园不断关门

亲子要闻

特效小黑人

《恐惧幻觉》今春登陆主机 特别好评开放世界RPG

内娱长剧有救了!

无障碍浏览 进入关怀版