网易首页 > 网易号 > 正文 申请入驻

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频

0
分享至

来源:市场资讯

(来源:量子位)

啪!~~~

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。


毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了。

但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战。

而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。


像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

整体来看InfinityStar的亮点,我们可以总结为如下三点:

值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~

首先我们来简单了解一下InfinityStar的体验方法。

它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转。

http://opensource.bytedance.com/discord/invite

在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:


接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法

首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:


挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

通过类似的方法,你也可以快速生成各种风格、影视级的镜头:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

包括各种运动场景中,人物的复杂动作也是能hold住:


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成


视频地址:https://mp.weixin.qq.com/s/IZb4h4JeVDsRTwautceYrQ

我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:

InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。

整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分。

1、首帧(外观信息):

视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模。这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):

首帧之后的视频内容被切分为若干个连续的视频片段(Clips)。这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模。

最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。


除了整体框架之外,InfinityStar还有两个关键技术。

首先是高效的视觉分词器

为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的Token。InfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:

训练一个离散的视觉分词器(Tokenizer)通常非常耗时。研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。


2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中,信息分布存在严重的“不均衡”问题:大部分细节信息集中在最后几个精细尺度上,导致token数量相差几十甚至上百倍。这会妨碍Transformer的学习,使其过度依赖后续尺度,而忽略了决定全局语义的早期尺度。

为此,InfinityStar引入了一种名为随机量化器深度的正则化技术。在训练时,随机丢弃(Discard)后面精细尺度的Token,迫使模型在仅有前面粗糙尺度Token的情况下也能重建出有意义的信息。这使得信息在不同尺度上分布更均衡,显著提升了模型的学习效率和最终的生成质量。


其次是优化的时空自回归Transformer

为了应对视频生成带来的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer本身也进行了三项关键改进:

总结来看,InfinityStar之所以能做到比DiT快上一个数量级,关键在于DiT需要20–100步去噪迭代,而InfinityStar是纯自回归“一条过”生成;并且离散token+粗到精预测机制,大幅减少inference step数。

在如此方法之下,实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG两项基准上取得了优异的表现,尤其在位置、物体关系上展现出了明显的优势。


在文生视频(T2V)任务上,InfinityStar在VBench基准上表现优秀,不仅显著超越了先前所有的自回归模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成绩。


在和HunyuanVideo的人类偏好评估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展现出了显著的优势。


在视频生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成一个5s 720p的视频仅需不到1分钟

总而言之,字节的这篇论文证明了离散自回归模型不仅能快,还能做到好,更是打破了只有扩散才能高清的迷思。

论文链接:

https://arxiv.org/pdf/2511.04675

代码链接:

https://github.com/FoundationVision/InfinityStar

申请体验:

http://opensource.bytedance.com/discord/invite

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
住建局领导,偷睡别人老婆,被直播!

住建局领导,偷睡别人老婆,被直播!

地产八卦
2025-08-06 19:25:42
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
日本报复来了,电磁炮亮相,台军响应,要用导弹让解放军有来无回

日本报复来了,电磁炮亮相,台军响应,要用导弹让解放军有来无回

现代小青青慕慕
2025-11-19 09:29:13
54岁于和伟演毛主席,这一次,他让唐国强和整个娱乐圈沉默了!

54岁于和伟演毛主席,这一次,他让唐国强和整个娱乐圈沉默了!

笔谈慧
2025-11-18 14:00:46
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

特特农村生活
2025-11-18 09:09:21
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
气场强大!陈梦暂停时,教练和队员全都闭口不言,没有人敢指导

气场强大!陈梦暂停时,教练和队员全都闭口不言,没有人敢指导

凤幻洋
2025-11-18 16:23:49
中金刘刚最新研判:2026年“牛市”的下一步,是“信用扩张”的方向决定一切

中金刘刚最新研判:2026年“牛市”的下一步,是“信用扩张”的方向决定一切

Wind万得
2025-11-19 06:52:18
奥沙利文:我宁愿拿到167分的100万奖金 而不是拿冠军

奥沙利文:我宁愿拿到167分的100万奖金 而不是拿冠军

罗克
2025-11-19 10:35:20
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
这才是日本帝国的真面目

这才是日本帝国的真面目

蓝钻故事
2025-11-17 23:28:59
从27连败到10连胜!NBA东部最强球队诞生,你们要冲总冠军了

从27连败到10连胜!NBA东部最强球队诞生,你们要冲总冠军了

篮球扫地僧
2025-11-19 11:24:58
如何才能防得了农民工“规模性返乡滞乡”?

如何才能防得了农民工“规模性返乡滞乡”?

李未熟擒话2
2025-11-18 11:44:58
曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

子芫伴你成长
2025-11-09 22:05:23
“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪

壹知眠羊
2025-08-10 07:29:29
李宗仁指挥台儿庄大捷歼敌万余,老蒋大为震惊:你能指挥杂牌军?

李宗仁指挥台儿庄大捷歼敌万余,老蒋大为震惊:你能指挥杂牌军?

云霄纪史观
2025-11-18 09:57:10
60岁超高龄妈妈在南京平安生子

60岁超高龄妈妈在南京平安生子

扬子晚报
2025-11-19 07:18:57
涉嫌严重违纪违法,董一凡(已退休)主动投案

涉嫌严重违纪违法,董一凡(已退休)主动投案

鲁中晨报
2025-11-19 10:02:11
广东一新生儿死亡,护士将孩子放入塑料袋内扔在厕所角落,谁料,姑姑突然想看侄儿最后一眼,结果发现玄机!

广东一新生儿死亡,护士将孩子放入塑料袋内扔在厕所角落,谁料,姑姑突然想看侄儿最后一眼,结果发现玄机!

二胡的岁月如歌
2025-11-18 19:30:54
12秒98!预赛最好成绩,吴燕妮小组第1进决赛,冲金路上遭遇2高手

12秒98!预赛最好成绩,吴燕妮小组第1进决赛,冲金路上遭遇2高手

萌兰聊个球
2025-11-19 10:20:14
2025-11-19 12:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1423664文章数 4568关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

教育要闻

家里欠债百万,学霸用刷题方法写网文还清债务?这才是降维打击!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版