字节跳动等让AI视频生成"学会预见未来"，视频压缩质量提升34%|编码器|知名企业

分享至

这项由字节跳动Seed团队联合北京大学与清华大学共同完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.02134。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**视频生成为什么会出现"画面失真"？**

近几年，AI生成视频的技术发展速度让人应接不暇。从简单的画面模糊到如今能够生成接近电影级别画质的视频，这背后有一套庞大且精密的技术体系在运作。然而，这套体系并非无懈可击——很多人在使用AI生成视频时会发现，虽然单帧画面看起来不错，但连续播放时总会出现一些奇怪的抖动、运动不自然或者前后帧不连贯的情况。这种问题究竟从何而来？

要回答这个问题，不妨用录音的比喻来理解整个AI视频生成的过程。生成AI视频，并不是直接在"原始像素"层面进行工作，而更像是先把原始录音压缩成一种"高效编码格式"（类似MP3），然后AI在这种压缩格式里学习如何创作新的音乐，最后再把创作结果还原成完整的音频。这个"压缩-学习-还原"的过程中，负责压缩和还原的工具被称为**视频变分自编码器（Video VAE）**。可以把它理解为视频内容的"压缩打包机"——它把原本庞大的视频信息打包成一个更小巧、更紧凑的"数据包"，让AI能够更高效地进行学习。

问题就出在这个"压缩打包"的过程中。现有的视频VAE虽然在还原画质方面已经做得相当不错，但研究团队发现，一味追求还原质量的提升，并不能让AI生成的视频变得更好。换句话说，打包得越精细，不代表AI能用这个包学到更好的内容创作方式。研究团队把这种"让AI更好地从压缩包里学习创作"的能力称为**可扩散性（diffusability）**，而如何提升视频潜在空间的可扩散性，在此之前一直是个未被很好解决的难题。

**一、从"只看眼前"到"预见未来"——PV-VAE的核心思路**

字节跳动等团队的研究者从一个很有趣的角度切入了这个问题。人类在理解视频时，并不只是逐帧地"看到什么就记录什么"，而是会不自觉地预判接下来会发生什么——比如看到一个人伸出手，你的大脑已经在预测下一刻他会抓住什么东西。这种"预见未来"的能力，让人类对视频中的运动和动态有着非常连贯的理解。

这个团队受到"预测性世界建模"这一理念的启发——该理念认为，对未来状态的预测是理解时间和因果结构的最有力方式。他们的核心想法是：如果在训练视频VAE时，不仅让它学会"如何还原已经看到的帧"，还强迫它"预测从未看到的未来帧"，那么它压缩出来的"数据包"就会自然地包含更多关于运动趋势和时间逻辑的信息。

具体的做法可以用这样一个场景来理解。假设你在学习描述一部电影，通常的学习方法是：把整部电影看完，然后写一段剧情梗概（这相当于标准的重建训练）。而这个团队提出的新方法是：只给你看电影的前半段，但要求你写出整部电影的完整剧情——包括你根本没看到的后半段。这种训练方式会逼着你更深入地理解前半段所有的细节、逻辑和人物关系，因为你需要用这些信息去推断接下来会发生什么。

基于这种思路，研究团队提出了**预测性视频变分自编码器（Predictive Video VAE，简称PV-VAE）**，其核心是一个"预测性重建目标"——把预测学习与视频重建统一到同一个训练任务里。

**二、PV-VAE到底是怎么工作的？**

在实际操作层面，PV-VAE的训练过程可以拆分成几个清晰的步骤，每一步都有其特定的用意。

训练时，对于一个完整的视频片段，PV-VAE会随机决定"丢弃"视频后半部分的若干帧，让编码器（负责压缩的部分）只看到视频的前段观察帧。然后，压缩得到的"观察潜在向量"（可以理解为前半段视频的压缩包）会被拼接上一些"填充向量"——这些填充向量来自一个完全没有输入信息的随机分布，就像是给后半段留下的空白占位符。随后，解码器（负责还原的部分）拿到这个由"真实前段压缩包"和"空白占位符"组成的完整序列，被要求还原出整个视频，包括编码器从未见过的后半段帧。

这种设计的妙处在于：由于后半段帧的信息完全不在编码器的输入里，模型唯一能做的就是让前段的压缩包尽可能地包含视频运动趋势和时间演化规律，这样解码器才有可能根据前段信息合理地推测后段内容。换句话说，模型被迫在压缩前段视频时，同时记录下"接下来可能会发生什么"的信息。

研究中还有一个细节处理值得关注。在丢帧率的设置上，研究者将最大丢帧比例设为100%——也就是说，在极端情况下，编码器可能只看到视频最开头的那一帧，而解码器需要还原整段视频。实验证明，这种"最强扰动"反而能让模型学到最好的表示，因为更强的预测压力会促使模型发展出更强大、更通用的时间动态理解能力。

此外，在"填充向量"的选择上，研究团队对比了两种策略：用随机高斯噪声填充，以及用可学习的专用令牌填充（类似于掩码自编码器中的做法）。结果显示，可学习令牌的效果略优于随机噪声。

为了防止模型走"捷径"——比如仅仅把静止背景直接复制到后半段，完全无视运动信息——研究团队还加入了一个**运动感知目标**，专门要求模型重建相邻帧之间的"时间差"（即帧差图），这相当于过滤掉静止背景，把模型的注意力强制引导到运动区域上。

在训练流程上，PV-VAE采用了多阶段训练策略。第一阶段，模型在大量多分辨率图片数据上进行预训练（30万步），让它先学会基本的图像压缩能力。第二阶段，在视频数据上用预测性重建目标继续训练（5万步），让它学习时间动态。由于训练时使用了丢帧策略，而推理时需要使用完整视频，存在训练和推理之间的差距，因此第三阶段专门进行解码器微调（再5万步）——冻结编码器，让解码器适应标准重建任务，显著改善了最终的重建质量，且不会损害已经学到的良好潜在空间结构。

在损失函数方面，PV-VAE综合使用了均方误差损失、感知相似度损失（LPIPS，用来保证感知层面的图像质量）、对抗生成损失（GAN，用来提升画面真实感）以及KL正则化项（用来维持潜在空间的统计特性），并在此基础上加入了前述的运动感知损失（帧差重建损失）。

模型架构上，PV-VAE基于三维因果卷积实现，采用16倍空间压缩和4倍时间压缩，潜在通道维度为64。编码器先进行两阶段时空下采样（空间和时间各减少4倍），再进行两阶段纯空间下采样（再减少4倍），总计实现16倍空间缩小。解码器与编码器对称，先进行空间上采样，再进行时空上采样。

**三、效果有多好？数据说话**

研究团队在三个广泛使用的基准数据集上评估了PV-VAE的性能，分别是UCF101（用于条件视频生成）、RealEstate10K（用于无条件视频生成）以及Kinetics-400（用于重建质量评估）。所有视频统一处理为17帧、256×256分辨率的片段。

最引人注目的结果出现在UCF101数据集上的条件视频生成任务。与Wan2.2 VAE（一个来自商业级大型视频生成系统的强大对手）相比，PV-VAE的**收敛速度快了52%**——也就是说，PV-VAE用约一半的训练时间就达到了对手最终的水平。在最终性能上，PV-VAE取得了146.37的FVD分数（FVD是评估生成视频质量的主要指标，分数越低越好），比Wan2.2 VAE的180.79提升了34.42分。与另一个专注于改善潜在空间可扩散性的方法SSVAE相比，PV-VAE也提升了22.31分。与使用更小压缩率（因此理论上保留更多信息、应该更容易生成）的Hunyuan-VAE相比，PV-VAE的FVD分数好了整整63.93分，训练速度快了2.68倍，内存消耗降低了62%。

在RealEstate10K的无条件生成任务上，PV-VAE同样取得了最佳表现，FVD分数72.50，KVD分数4.06，均优于所有对比方法。

重建质量方面，PV-VAE的表现略逊于Wan2.2 VAE（这是预期中的权衡——把精力用来学习预测，必然会在纯重建上有所取舍），但明显优于SSVAE。有意思的是，PV-VAE在重建密集文字时表现欠佳，研究团队认为这主要是训练数据中文字密集内容较少导致的，未来可通过扩充多样化训练数据来改善。在推理效率方面，与Hunyuan-VAE相比，PV-VAE的推理速度快38%，内存消耗减少64%；与Wan2.2 VAE相比，推理速度快19%，内存消耗减少15%。

**四、潜在空间里到底发生了什么变化？**

成绩单好看固然重要，但研究团队更想搞清楚：为什么预测性重建训练能带来这些提升？他们从多个角度深入分析了PV-VAE学到的潜在空间的内部结构。

研究人员对潜在向量沿通道维度进行了主成分分析（PCA）——简单来说，就是把高维的压缩数据降维到可以可视化的三个颜色通道（RGB），直观地看看压缩后的数据长什么样。结果非常直观：普通基线模型的PCA可视化看起来杂乱无章，而PV-VAE的PCA图像则与同一视频的光流图（一种可视化运动方向和速度的图）高度吻合。运动剧烈的区域（比如正在做俯卧撑的人、演奏大提琴的手、打牌的手）在PCA图中呈现出明显更强烈的激活，而静态背景则保持相对平稳、低噪声的表示。这意味着PV-VAE在压缩视频时，自动学会了"把注意力集中在运动上"，背景只是顺带处理。

为了量化这种时间连贯性，研究团队提出了一个新指标——**潜在时间距离（Latent Temporal Distance，LTD）**，计算的是不同时间间隔的帧对应的潜在向量之间的L2距离。如果一个模型的潜在空间能真正反映时间演化，那么相邻帧之间的LTD应该比较小（动作连续，变化平缓），而随着帧间隔增大，LTD也应该单调递增（内容差异越来越大）。结果显示，PV-VAE在相邻帧LTD上的中位数（130.49）远低于基线模型（210.79），而且随着帧间隔增大，PV-VAE的LTD呈现出漂亮的单调递增曲线，而基线模型则没有这种规律。这清楚地表明，PV-VAE的潜在空间真的形成了一条平滑、连续演化的"时间轨迹"。

研究团队还做了一个预测准确性与生成质量之间的相关性研究，结果证实：预测精度越高的模型，生成视频的FVD分数也越好，两者之间存在清晰的正相关关系。这从根本上验证了"学会预测未来帧"与"生成高质量视频"之间的内在联系。

在数据规模扩展性上，实验表明，随着训练数据量的增加，PV-VAE的生成性能持续稳定提升；而纯重建目标的基线模型在数据扩大时并没有体现出相应的性能增益。这意味着PV-VAE具有优秀的可扩展性——给它更多数据，它就能变得更好。

**五、视频理解能力也跟着一起提升了**

一个出人意料但颇为有趣的发现是：PV-VAE不仅让视频生成变得更好，还让下游的视频理解任务也得到了提升。研究团队从训练了PV-VAE的潜在扩散模型的第14层提取特征，用这些特征去做三个视频理解任务，并与没有预测性重建的基线模型进行对比。

在光流估计任务（通过视频预测运动方向和速度，在Sintel数据集上测试）方面，使用PV-VAE特征的平均端点误差比基线降低了12.5%，从5.9223降到5.1805。在下一帧预测任务（预测下一帧RGB内容，在Kinetics-400数据集上测试）方面，均方误差降低了8.0%，从0.0314降到0.0289。在点追踪任务（在视频中追踪特定点的轨迹，在TAP-Vid-DAVIS数据集上测试，该数据集包含30个标注了查询点和真实轨迹的视频）方面，追踪精度曲线下面积提升了8.5%，从70.95%提升到76.99%。

这三项任务涵盖了运动估计、预测和追踪，全面验证了PV-VAE的特征确实编码了更强的时间动态和运动理解能力。研究团队还展示了PV-VAE的实际预测效果：给定视频的前半段，模型不仅能还原前半段，还能生成合理的后半段预测——包括正确预测人物与背景之间的相对位置变化，以及动作的时间演进。

**六、做过哪些消融实验？每个组件各贡献多少？**

为了量化每个设计选择的具体贡献，研究团队进行了系统的消融实验，逐步叠加各个组件，观察每步带来的变化。

基线模型（标准重建训练，不带任何预测机制）在UCF101的生成FVD为174.81。加入预测性重建后，FVD降到156.33，提升了18.48分，代价是重建rFVD从3.03上升到5.66（这是意料之中的权衡，因为模型现在要同时做两件事）。进一步加入运动感知目标，FVD继续降到150.10，改善了6.23分，重建质量基本持平。最后加入解码器微调阶段，生成FVD小幅改善到146.37，而重建质量则大幅回升——rFVD从5.79降到3.45，PSNR从31.38升到32.26，SSIM从0.94升到0.95，LPIPS从0.026降到0.020。解码器微调作为"免费午餐"的比喻在这里尤为贴切：它几乎不改变编码器学到的潜在空间结构，却能显著提升解码器的还原能力。

**七、Transformer架构的视频VAE值得期待但尚未成熟**

在主体研究之外，研究团队还探索了一个前瞻性的方向：把目前主流的基于三维因果卷积的VAE架构，替换成Transformer（变换器，目前在大多数视觉和语言任务中占主导地位的架构）。

他们设计了一个极简的平面Transformer视频VAE（编码器和解码器各12层，16个注意力头，头维度128，总参数量约12亿），输入先被划分为4×16×16的时空块，经Transformer处理后由解码器用像素打乱操作（pixel-shuffle）还原到原始分辨率。

结果发现，Transformer版本的推理速度比卷积版本快87%，但生成质量（UCF101 FVD 178.86）明显低于卷积版本（146.37），重建质量两者相当。研究团队认为，Transformer架构在计算效率和表示灵活性上有很大潜力（可以更自然地融入各种自监督学习范式），但当前在视频生成质量上还存在差距，需要进一步探索更好的架构配置和训练方案。

归根结底，这项研究做了一件以前很少有人认真去做的事：不是把VAE当成一个"打包工具"去优化，而是把它当成一个需要"理解时间"的智能体去训练。通过强迫模型在看不到未来帧的情况下预测它们，PV-VAE学会了把视频的运动逻辑和时间规律编码进自己的压缩包里——而这恰恰是让AI生成视频更流畅、更真实的关键所在。

对于每天刷视频的普通用户而言，这意味着未来AI生成的视频会更少出现诡异的运动抖动和前后帧不连贯的问题。对于视频生成的研究者和工程师而言，这种"预测即理解"的训练哲学，为如何设计更好的视频压缩空间提供了一个新的思路框架。而研究团队提出的Transformer版视频VAE虽然尚未成熟，但87%的推理速度提升已经暗示了一条值得继续走下去的道路。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.02134查阅完整论文，项目页面也在 zhao-yian.github.io/PVVAE 上持续更新相关内容。

Q&A

Q1：视频VAE和普通视频压缩有什么区别？

A：视频VAE（变分自编码器）不只是减小文件体积，而是把视频压缩到一个专门适合AI学习的"潜在空间"里。普通压缩（如H.264）追求人眼看着质量好，VAE则追求AI能从压缩结果里高效地学习如何生成新视频，两者的优化目标不同。PV-VAE特别关注让压缩后的空间包含足够的运动和时间规律信息，这是普通压缩完全不考虑的维度。

Q2：PV-VAE的预测性训练会不会导致生成视频内容重复或保守？

A：不会，而且效果相反。预测性训练让模型更深刻地理解视频中的运动逻辑，生成时会呈现更连贯、更自然的运动变化，减少随机抖动和帧间不一致。在UCF101和RealEstate10K的测试中，PV-VAE生成的视频FVD分数均为所有对比方法中最低，视觉质量更好，运动伪影更少，说明学到的是更有结构的运动表示，而非趋于保守。

Q3：PV-VAE训练需要额外的标注数据吗？

A：完全不需要额外标注。预测性重建目标是一种自监督方法——模型的监督信号就是视频本身被丢弃的那些帧，不需要人工打标签。这意味着PV-VAE可以直接使用现有的大规模无标注视频数据进行训练，且随着数据量增加性能持续提升，具有很好的可扩展性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.