QVGen让「超低比特视频生成量化」真正可用！|推理|全模态|qvgen

QVGen让「超低比特视频生成量化」真正可用！

2026-02-25 18:07:24　来源: 机器之心Pro

河北举报

分享至

视频生成扩散模型越做越大：2B、5B、14B…… 效果提升很快，但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”，把显存和算力成本打下来，真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷：一到 3/4 bit，视频生成的量化感知训练（QAT）往往比图像更难训、更不稳定，质量掉得更狠 —— 不是 “略降一点”，而是直接不可用。

图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。（a）原始模型；（b）该论文所提出方案；（c-e）已有的量化感知训练方案；（f）已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen，在 3-bit / 4-bit 都能把质量拉回来，并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收：rebuttal 前 88666（top 1.4%），rebuttal 后 88886 （top 0.5%）。

论文地址：https://arxiv.org/pdf/2505.11497
代码地址：https://github.com/ModelTC/QVGen
模型地址：https://huggingface.co/collections/Harahan/qvgen

图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”？

QVGen 的切入点很直接：视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察（见图表 3）：在相近规模、相似训练设置下，视频扩散模型的梯度范数明显更大，这会让优化过程更不稳定，最终导致低比特训练难以收敛、生成质量难以维持。

换句话说，如果不先解决 “训练不稳” 这个根因，只靠常见量化技巧做修补，视频生成很难真正落地。

图表 3 第一行为已有方案（蓝色）与论文方案（黄色）在量化感知训练中的梯度范数比较；第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么：先把训练救稳，再把推理成本 “还回去”

QVGen 的核心思路是 “训练期做增强、推理期不背包袱”，它把一个看似矛盾的目标拆成了两步来解决（见图表 2）。

第一步，训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重，而是为了在低比特条件下降低梯度范数、提升训练稳定性，让 3/4-bit 的 QAT 先 “训得动、训得好”。此外，除了图表 3 中的实验论证，在论文中还提供了详细的理论证明。

第二步，训练过程中逐步移除 Φ，让最终推理阶段不再依赖这个模块。作者的观察是：随着训练推进，Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay：反复做分解，识别低影响的分量，并用基于秩的正则把这些分量逐步衰减到 0，直到 Φ 被完全消掉。最终效果是：推理阶段几乎不增加额外开销，但训练阶段又能获得稳定性红利。

结果有多硬：4-bit 接近全精度，3-bit 也把指标拉回 “可用区间”

在主实验中，QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰：很多方法在 4-bit 下仍有明显退化，到了 3-bit 更加明显；QVGen 在 3-bit 能大幅恢复质量，在 4-bit 则可以做到接近全精度（见图表 4）。

更关键的是，它不只在小模型上有效。论文还展示了在更大的视频生成模型上（例如 5B、14B 级别，以及更高分辨率设置），4-bit 仍能保持接近全精度的总体水平（见图表 5-6）。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” （见图表 7-8）。

图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型，QVGen 与已有方案在 VBench 上的性能比较。

图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。

图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。

图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。

图表 8 QVGen 在 Wan 14B 上的可视化结果。

不只是省显存：它能带来真实加速，还能和其他加速方法叠加

对部署来说，低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省（例如 4× 级别的压缩量级），从而让同样的模型更容易跑在更小的卡上，或者把 batch、分辨率等配置拉高。

更实际的一点是：QVGen 使用标准的均匀量化思路，意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的：例如与某些 3D attention 加速方案叠加后，推理速度还能进一步提升（见图表 9）。

图表 9 （左）模型大小对比；（中）模型加速对比；（右）与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型，黄色代表 Wan 14B 模型。

训练成本会不会更高？论文给出的答案是 “几乎不多花”

很多读者会担心：训练期加了 Φ、还要做 rank-decay，会不会导致训练成本暴涨？论文做了训练效率分析，结论是：相对一些蒸馏式 QAT 基线，QVGen 的额外训练开销很小（例如 GPU-days、峰值显存几乎不变的量级），但在最终生成质量上仍能拉开明显差距（见图表 10）。

图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。

总结：视频扩散也能 4bit 接近满血，先稳训练再轻推理！

当下视频生成扩散模型越来越大，但 3/4-bit 量化一落到视频上，常见问题是：QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接：视频低比特量化的关键不只是 “怎么量化”，而是先把训练稳定性问题解决，否则再好的量化细节也很难落地。

在这一点上，QVGen 给出了一套完整范式，主要包括：

训练期引入辅助模块 Φ：用于降低梯度范数、提升低比特 QAT 的稳定性，让 3/4-bit 训练 “跑得起来、训得下去”；
rank-decay 逐步移除 Φ：训练过程中识别并衰减低贡献成分，最终把 Φ 完全去掉，使推理阶段几乎不背额外负担；
面向部署的低比特设置：支持 W4A4/W3A3，并强调可对接现有推理实现；在显存上带来明显下降，同时还能与其他推理加速方法叠加。

总体来看，QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果，并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景，这是一条很实用的路线。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.