网易首页 > 网易号 > 正文 申请入驻

QVGen让「超低比特视频生成量化」真正可用!

0
分享至



视频生成扩散模型越做越大:2B、5B、14B…… 效果提升很快,但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”,把显存和算力成本打下来,真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷:一到 3/4 bit,视频生成的量化感知训练(QAT)往往比图像更难训、更不稳定,质量掉得更狠 —— 不是 “略降一点”,而是直接不可用。



图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。(a)原始模型;(b)该论文所提出方案;(c-e)已有的量化感知训练方案;(f)已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。



  • 论文地址:https://arxiv.org/pdf/2505.11497
  • 代码地址:https://github.com/ModelTC/QVGen
  • 模型地址:https://huggingface.co/collections/Harahan/qvgen



图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”?

QVGen 的切入点很直接:视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察(见图表 3):在相近规模、相似训练设置下,视频扩散模型的梯度范数明显更大,这会让优化过程更不稳定,最终导致低比特训练难以收敛、生成质量难以维持。

换句话说,如果不先解决 “训练不稳” 这个根因,只靠常见量化技巧做修补,视频生成很难真正落地。



图表 3 第一行为已有方案(蓝色)与论文方案(黄色)在量化感知训练中的梯度范数比较;第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么:先把训练救稳,再把推理成本 “还回去”


QVGen 的核心思路是 “训练期做增强、推理期不背包袱”,它把一个看似矛盾的目标拆成了两步来解决 (见图表 2)。

第一步,训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重,而是为了在低比特条件下降低梯度范数、提升训练稳定性,让 3/4-bit 的 QAT 先 “训得动、训得好”。此外,除了图表 3 中的实验论证,在论文中还提供了详细的理论证明。

第二步,训练过程中逐步移除 Φ,让最终推理阶段不再依赖这个模块。作者的观察是:随着训练推进,Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay:反复做分解,识别低影响的分量,并用基于秩的正则把这些分量逐步衰减到 0,直到 Φ 被完全消掉。最终效果是:推理阶段几乎不增加额外开销,但训练阶段又能获得稳定性红利。

结果有多硬:4-bit 接近全精度,3-bit 也把指标拉回 “可用区间”


在主实验中,QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰:很多方法在 4-bit 下仍有明显退化,到了 3-bit 更加明显;QVGen 在 3-bit 能大幅恢复质量,在 4-bit 则可以做到接近全精度(见图表 4)。

更关键的是,它不只在小模型上有效。论文还展示了在更大的视频生成模型上(例如 5B、14B 级别,以及更高分辨率设置),4-bit 仍能保持接近全精度的总体水平(见图表 5-6)。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” (见图表 7-8)。



图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 与已有方案在 VBench 上的性能比较。



图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。



图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。



图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。



图表 8 QVGen 在 Wan 14B 上的可视化结果。

不只是省显存:它能带来真实加速,还能和其他加速方法叠加


对部署来说,低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省(例如 4× 级别的压缩量级),从而让同样的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

更实际的一点是:QVGen 使用标准的均匀量化思路,意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的:例如与某些 3D attention 加速方案叠加后,推理速度还能进一步提升(见图表 9)。



图表 9 (左)模型大小对比; (中)模型加速对比;(右)与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型,黄色代表 Wan 14B 模型。

训练成本会不会更高?论文给出的答案是 “几乎不多花”

很多读者会担心:训练期加了 Φ、还要做 rank-decay,会不会导致训练成本暴涨?论文做了训练效率分析,结论是:相对一些蒸馏式 QAT 基线,QVGen 的额外训练开销很小(例如 GPU-days、峰值显存几乎不变的量级),但在最终生成质量上仍能拉开明显差距(见图表 10)。



图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。

总结:视频扩散也能 4bit 接近满血,先稳训练再轻推理!


当下视频生成扩散模型越来越大,但 3/4-bit 量化一落到视频上,常见问题是:QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接:视频低比特量化的关键不只是 “怎么量化”,而是先把训练稳定性问题解决,否则再好的量化细节也很难落地。

在这一点上,QVGen 给出了一套完整范式,主要包括:

  • 训练期引入辅助模块 Φ:用于降低梯度范数、提升低比特 QAT 的稳定性,让 3/4-bit 训练 “跑得起来、训得下去”;
  • rank-decay 逐步移除 Φ:训练过程中识别并衰减低贡献成分,最终把 Φ 完全去掉,使推理阶段几乎不背额外负担;
  • 面向部署的低比特设置:支持 W4A4/W3A3,并强调可对接现有推理实现;在显存上带来明显下降,同时还能与其他推理加速方法叠加。

总体来看,QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果,并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景,这是一条很实用的路线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万斯宣称伊朗常规军力“被打废”:美国下一步是谈判还是继续轰炸

万斯宣称伊朗常规军力“被打废”:美国下一步是谈判还是继续轰炸

桂系007
2026-03-26 23:48:40
以军称袭击伊朗数十处军工设施

以军称袭击伊朗数十处军工设施

财联社
2026-03-27 02:04:06
登顶Top.1,HBO韩剧又爆了

登顶Top.1,HBO韩剧又爆了

来看美剧
2026-03-26 18:22:47
隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

江江食研社
2026-03-23 18:30:10
营收144亿!激光巨头净利增长20.48%

营收144亿!激光巨头净利增长20.48%

新浪财经
2026-03-26 22:28:02
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
单义任山东省委秘书长

单义任山东省委秘书长

极目新闻
2026-03-26 20:46:17
16GB+1TB!新机官宣:3月25日,正式发售!

16GB+1TB!新机官宣:3月25日,正式发售!

科技堡垒
2026-03-25 09:20:07
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

娱乐团长
2026-03-26 15:45:18
男子开800公里高速回老家,高速费扣2400,报警查监控:这可不是我

男子开800公里高速回老家,高速费扣2400,报警查监控:这可不是我

如烟若梦
2025-08-22 19:00:06
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
诺基亚6600内置无人机,这设计必须封神

诺基亚6600内置无人机,这设计必须封神

3C毒物
2026-02-27 15:25:40
向辉带队到大连市洽谈推进重点合作项目

向辉带队到大连市洽谈推进重点合作项目

新浪财经
2026-03-26 14:12:09
伊朗将收油轮过路费,特朗普想分一杯羹?中方已表态

伊朗将收油轮过路费,特朗普想分一杯羹?中方已表态

兵国大事
2026-03-25 20:13:24
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

圆梦的小老头
2026-03-15 03:37:22
广东队连夜返莞备战粤京大战 下一轮输北京将跌出前5 杜锋压力山

广东队连夜返莞备战粤京大战 下一轮输北京将跌出前5 杜锋压力山

越岭寻踪
2026-03-26 03:39:23
4种粗粮已被列入伤胃名单,吃多了或伤胃!再爱吃也别贪嘴

4种粗粮已被列入伤胃名单,吃多了或伤胃!再爱吃也别贪嘴

岐黄传人孙大夫
2026-03-22 19:05:03
2026-03-27 02:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
游戏
手机
公开课

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

400万人爱过的女孩,被黄谣网暴180天后

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版