网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 REGEN: 首个基于DiT的视频Tokenizer

0
分享至

本篇分享ICCV2025论文REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder,提出首个基于DiT的视频Tokenizer。



  • 论文地址:https://arxiv.org/abs/2503.08665

  • 项目网页:https://bespontaneous.github.io/REGEN/

Strength:

  1. 首个基于Diffusion Transformer (DiT)的视频tokenizer :首次将DiT用于生成式视频解码器。

  2. 极致压缩效率 :在4x8x8压缩率下达到SOTA性能,最高可支持32倍时间压缩比( 首个32倍时间压缩比的text-to-video generation model )。

  3. 一步生成,无需蒸馏 :推理时支持单步采样而无需额外的优化。

  4. 自由适配各种分辨率与宽高比 :突破DiT固定位置编码限制,实现内容感知的条件位置编码。

  5. 兼容多任务生成 :除了重建(reconstruction)外,还支持时间上的插值(interpolation)和外推(extrapolation)的任务。

1. Introduction

在现有latent diffusion model的框架下,视频tokenizer的latent space对于视频生成的训练和推理速度有着决定性的作用。目前主流的视频tokenizer,比如MAGVIT-v2,采用基于3D-VAE的架构,实现在空间和时间维度上的压缩。尽管如此,它们通常能达到 8 倍的空间压缩,却仅有 4 倍的时间压缩。因为传统视频tokenizer难以兼顾压缩比与重建效果,尤其在高压缩率下容易导致细节丢失,所以当前方法难以突破现有的压缩倍率。

本文提供了一种面向latent diffusion model的视频 tokenizer 学习新视角。我们主张从生成角度看待latent representation learning,认为“在latent diffusion model框架下,latent space最关键的特性不是忠实还原输入视频,而是生成视觉上合理的内容”。基于此,我们把传统的编码器–解码器改为编码器–生成器架构。此种生成导向方法使压缩策略更灵活,编码器仅需保留语义和结构要素,解码器则负责合成逼真细节,从而可以达到更大的压缩率和更好的性能。

2. Method

本模型包含两个主要部分: 是将输入视频转换为compact latent space的 时空编码器(Spatiotemporal Video Encoder)。二 是基于 DiT 的 生成式解码器(generative decoder),它将latent作为 conditioning,恢复视频到像素空间。整个模型从头训练,以扩散训练目标进行端对端优化。


对于Spatiotemporal Video Encoder,我们采用了跟continuous MAGVIT-v2一样的causal 3D convolution blocks架构来同时编码图像和视频数据。具体来说,我们将长度为 k + 1 的视频chunk编码为两个latent frames:content frame- zc(只含第 1 帧的信息)和motion frame- zm(压缩其余帧的运动信息),默认地,我们采用8个通道来表示latent space。

与传统解码器不同,我们将解码任务建模为有条件扩散过程。给定输入视频序列及其内容与运动潜在表示 zc, zm,generative decoder 将从噪声序列中(重新)生成目标视频。值得注意的是,我们的formulation天然支持对 xtarget 的灵活定义,能够应对重建之外的任务。例如,将xtarget设为输入视频的时间上采样版本,即可实现时间插值(interpolation);若设为时间偏移版本,则可实现时间外推(extrapolation)。由于DiT在建模能力和扩展性能方面相较于U-Net表现更优,我们采用DiT作为generative decoder的backbone。我们的解码器在像素空间工作,使用的 patch 大小为 p,而 p 由编码器的空间下采样倍率决定。在本文中,该倍率为 8,因此设定 p = 8。


传统 Transformer 用静态的时空位置编码(PE)来引导视频解码,但这种固定位置编码无法泛化到训练中未见过的分辨率或宽高比。我们提出了一种新机制:将编码后的latent转化为内容感知(content-aware)的位置编码,而不是使用固定的 PE。具体来说,我们设计了一个全新的conditioning 机制,该模块从latent生成扩展之后的潜在表示,匹配目标视频的时空维度;然后将其添加到 token 和timestep的 embedding 中,并输入 DiT 解码器。这样,扩展后的潜在表示作为内容感知的位置编码将参与控制生成视频的时空结构。

3. Empirical Validation 3.1 4x Temporal Compression

首先我们在4x8x8的压缩比下将REGEN和现有8-channel,16-channel的视频tokenizer进行比较,可以看到我们的方法在quantitative和qualitative的比较上均领先于现有方法。


8-channel quantitative comparison 8-channel qualitative comparison 16-channel quantitative comparison

为了和其他压缩倍率和不同channel size的视频tokenizer比较,我们计算了所有方法的compression factor,可以看到REGEN相较于其他方法在同样compression factor下取得了更好的性能。


Comparisons at various compression factors 3. Higher Temporal Compression

我们将MAGVIT-v2扩展到更高的压缩倍率并和REGEN进行比较,可以看到随着压缩比的增大,REGEN相对于MAGVIT-v2的优势也在不断增加。


Quantitative comparisons at higher temporal compression Qualitative comparisons at higher temporal compression 3.3 Text-to-Video at 32x Temporal Compression

我们进一步检验这种compact latent space是否适用于text-to-video generation。为此,我们在 32 倍时间压缩的latent space上,训练了一个基于 DiT 的 5B 参数 latent diffusion model用于text-to-video generation。实验结果表明,即使latent space非常紧凑,扩散模型仍能生成合理的视频内容,显示出本方法在视频生成方面的潜力。值得注意的是,该模型能用仅 8 帧 latent 表示生成 132 帧视频(32× 时间压缩),相比传统基于 4× 时间压缩的视频嵌入方式,latent 帧数减少约 5 倍,从而显著降低训练与推理成本。


Text-to-video generation at 32x temporal compression 3.4 Generalization to Arbitrary Resolution

使用传统的 Transformer 作为解码器的一大挑战在于:带有固定位置编码(PE)的模型难以泛化到推理时遇到的未见分辨率。相比之下,我们提出的内容感知位置编码(content-aware PE)使 REGEN 在推理阶段天然支持各种宽高比和分辨率,即便在训练时未曾见过。如下图所示,固定 PE 在高分辨率下会导致严重的网格伪影,而我们的方法则能良好泛化。


Reconstruction at different resolutions 3.5 One-step Sampling for Efficient Inference

扩散模型通常需要多步去噪才能得到高质量结果,这大大增加了推理开销。然而,由于我们的生成解码器拥有很强的conditioning signal,使得生成任务变得更容易。我们在同一模型上测试不同采样步数,观察质量随步数减少的变化(如下图 所示)。令人惊讶的是,即便只用一步采样(1-step),图像重构仍无明显质量下降。这意味着我们的扩散解码器甚至可以在无需外部蒸馏的情况下当作类似前馈模型使用,具备很强的实用潜力。


Reconstruction at different sampling steps 3.6 Interpolation and Extrapolation

我们的latent conditioning 模块不仅支持重建,还能以统一设计实现时间维度上的插值与外推。为验证插值能力,我们与两种基线方法对比:(1)帧平均:直接平均真实帧;(2) 外部插值:在重建帧基础上使用现成插值模型。结果显示,帧平均会出现明显伪影,而我们的方法则过渡平滑,与真实帧高度一致。此外,我们的模块还能进行时间外推,比如预测未来或过去帧,证明了我们generative decoder的生成能力。


2x interpolation results Forward latent extrapolation results 3.7 Alleviating the Chunking Issue

跟其他视频tokenizers一样,我们的方法也会在相邻chunk的交接处出现轻微的jumping现象。为了解决这一问题,我们利用解码器的外推能力(extrapolation):通过当前chunk的潜在表示预测上一个chunk的末帧,进而引导下一个chunk的生成(参考 SDEdit 方法)。如下图所示,此种latent extension策略显著减少了jumping现象,使片段衔接更平滑 。


Alleviating the chunking issue with latent extension

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京输球揪出最大废才!拿600万半场1分,被人隔扣恼羞成怒+吃T

北京输球揪出最大废才!拿600万半场1分,被人隔扣恼羞成怒+吃T

南海浪花
2026-01-09 22:19:56
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

红星新闻
2026-01-09 19:12:18
特朗普的支持者称,若巴伦迎娶丹麦公主,格陵兰可作为嫁妆赠美国

特朗普的支持者称,若巴伦迎娶丹麦公主,格陵兰可作为嫁妆赠美国

遍体鳞伤为我证明
2026-01-09 08:18:58
俄专家:中国朋友犯了错误!日本军舰来中国挑衅,应该被击沉的

俄专家:中国朋友犯了错误!日本军舰来中国挑衅,应该被击沉的

米君文史
2025-12-04 23:08:25
深夜利空,8个龙头年报业绩暴雷,5股陷入亏损,千万别踩雷

深夜利空,8个龙头年报业绩暴雷,5股陷入亏损,千万别踩雷

风风顺
2026-01-10 00:57:49
看到委内瑞拉的情况,李显龙在怕什么?

看到委内瑞拉的情况,李显龙在怕什么?

新民周刊
2026-01-09 09:09:48
蔡磊病情进入终末期,“比植物人还要残酷”

蔡磊病情进入终末期,“比植物人还要残酷”

中国新闻周刊
2026-01-09 18:43:22
45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

瓜汁橘长Dr
2026-01-09 17:44:33
WTT多哈冠军赛:女单8强诞生!国乒4胜1负,陈幸同约战张本美和

WTT多哈冠军赛:女单8强诞生!国乒4胜1负,陈幸同约战张本美和

全言作品
2026-01-10 03:00:10
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
Shams:安东尼-戴维斯左手韧带受伤,若进行手术将缺席数月

Shams:安东尼-戴维斯左手韧带受伤,若进行手术将缺席数月

懂球帝
2026-01-10 05:33:19
别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

知识圈
2026-01-09 20:01:22
85%的血管淤堵,根本不用过度治疗!医生:做好3件事,比吃药管用

85%的血管淤堵,根本不用过度治疗!医生:做好3件事,比吃药管用

孟大夫之家1
2026-01-09 15:47:05
闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

奇思妙想草叶君
2026-01-08 22:47:02
闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

削桐作琴
2026-01-09 17:30:49
冲突升级!美抓捕影子油轮与俄核潜艇大西洋对峙,强行登船扣船

冲突升级!美抓捕影子油轮与俄核潜艇大西洋对峙,强行登船扣船

史政先锋
2026-01-08 12:50:30
不得不服俄罗斯!油轮被抓后,榛树高超连夜报复,10马赫警告美国

不得不服俄罗斯!油轮被抓后,榛树高超连夜报复,10马赫警告美国

剑道万古似长夜
2026-01-09 14:36:31
万科创始人王石妻子疑似评论郁亮“抓”

万科创始人王石妻子疑似评论郁亮“抓”

地产微资讯
2026-01-09 18:00:51
闹大了!闫学晶儿子是中戏新疆班,网友呼吁严查,这下她真要哭了

闹大了!闫学晶儿子是中戏新疆班,网友呼吁严查,这下她真要哭了

非常先生看娱乐
2026-01-09 17:10:34
2026-01-10 05:48:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5292文章数 64599关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

艺术
家居
旅游
教育
公开课

艺术要闻

15位著名画家的女性之美:哪一张触动了你的心?

家居要闻

木色留白 演绎现代自由

旅游要闻

想看雾凇别瞎跑!吉林阿什哈达这 5 个观赏秘诀,帮你避开空跑遗憾

教育要闻

震惊!556分上211?合肥工大统计学真香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版