网易首页 > 网易号 > 正文 申请入驻

QVGen让「超低比特视频生成量化」真正可用!

0
分享至



视频生成扩散模型越做越大:2B、5B、14B…… 效果提升很快,但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”,把显存和算力成本打下来,真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷:一到 3/4 bit,视频生成的量化感知训练(QAT)往往比图像更难训、更不稳定,质量掉得更狠 —— 不是 “略降一点”,而是直接不可用。



图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。(a)原始模型;(b)该论文所提出方案;(c-e)已有的量化感知训练方案;(f)已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。



  • 论文地址:https://arxiv.org/pdf/2505.11497
  • 代码地址:https://github.com/ModelTC/QVGen
  • 模型地址:https://huggingface.co/collections/Harahan/qvgen



图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”?

QVGen 的切入点很直接:视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察(见图表 3):在相近规模、相似训练设置下,视频扩散模型的梯度范数明显更大,这会让优化过程更不稳定,最终导致低比特训练难以收敛、生成质量难以维持。

换句话说,如果不先解决 “训练不稳” 这个根因,只靠常见量化技巧做修补,视频生成很难真正落地。



图表 3 第一行为已有方案(蓝色)与论文方案(黄色)在量化感知训练中的梯度范数比较;第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么:先把训练救稳,再把推理成本 “还回去”


QVGen 的核心思路是 “训练期做增强、推理期不背包袱”,它把一个看似矛盾的目标拆成了两步来解决 (见图表 2)。

第一步,训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重,而是为了在低比特条件下降低梯度范数、提升训练稳定性,让 3/4-bit 的 QAT 先 “训得动、训得好”。此外,除了图表 3 中的实验论证,在论文中还提供了详细的理论证明。

第二步,训练过程中逐步移除 Φ,让最终推理阶段不再依赖这个模块。作者的观察是:随着训练推进,Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay:反复做分解,识别低影响的分量,并用基于秩的正则把这些分量逐步衰减到 0,直到 Φ 被完全消掉。最终效果是:推理阶段几乎不增加额外开销,但训练阶段又能获得稳定性红利。

结果有多硬:4-bit 接近全精度,3-bit 也把指标拉回 “可用区间”


在主实验中,QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰:很多方法在 4-bit 下仍有明显退化,到了 3-bit 更加明显;QVGen 在 3-bit 能大幅恢复质量,在 4-bit 则可以做到接近全精度(见图表 4)。

更关键的是,它不只在小模型上有效。论文还展示了在更大的视频生成模型上(例如 5B、14B 级别,以及更高分辨率设置),4-bit 仍能保持接近全精度的总体水平(见图表 5-6)。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” (见图表 7-8)。



图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 与已有方案在 VBench 上的性能比较。



图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。



图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。



图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。



图表 8 QVGen 在 Wan 14B 上的可视化结果。

不只是省显存:它能带来真实加速,还能和其他加速方法叠加


对部署来说,低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省(例如 4× 级别的压缩量级),从而让同样的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

更实际的一点是:QVGen 使用标准的均匀量化思路,意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的:例如与某些 3D attention 加速方案叠加后,推理速度还能进一步提升(见图表 9)。



图表 9 (左)模型大小对比; (中)模型加速对比;(右)与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型,黄色代表 Wan 14B 模型。

训练成本会不会更高?论文给出的答案是 “几乎不多花”

很多读者会担心:训练期加了 Φ、还要做 rank-decay,会不会导致训练成本暴涨?论文做了训练效率分析,结论是:相对一些蒸馏式 QAT 基线,QVGen 的额外训练开销很小(例如 GPU-days、峰值显存几乎不变的量级),但在最终生成质量上仍能拉开明显差距(见图表 10)。



图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。

总结:视频扩散也能 4bit 接近满血,先稳训练再轻推理!


当下视频生成扩散模型越来越大,但 3/4-bit 量化一落到视频上,常见问题是:QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接:视频低比特量化的关键不只是 “怎么量化”,而是先把训练稳定性问题解决,否则再好的量化细节也很难落地。

在这一点上,QVGen 给出了一套完整范式,主要包括:

  • 训练期引入辅助模块 Φ:用于降低梯度范数、提升低比特 QAT 的稳定性,让 3/4-bit 训练 “跑得起来、训得下去”;
  • rank-decay 逐步移除 Φ:训练过程中识别并衰减低贡献成分,最终把 Φ 完全去掉,使推理阶段几乎不背额外负担;
  • 面向部署的低比特设置:支持 W4A4/W3A3,并强调可对接现有推理实现;在显存上带来明显下降,同时还能与其他推理加速方法叠加。

总体来看,QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果,并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景,这是一条很实用的路线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是爱,穆勒目前仍佩戴着带有拜仁图案的护腿板

这就是爱,穆勒目前仍佩戴着带有拜仁图案的护腿板

懂球帝
2026-02-27 06:05:33
马筱梅儿子被质疑不是新生儿,疑在大S忌日出生,行程被扒惹争议

马筱梅儿子被质疑不是新生儿,疑在大S忌日出生,行程被扒惹争议

古希腊掌管月桂的神
2026-02-25 12:42:43
二手房抛售狂潮愈演愈烈,一个房价危险信号,已经出现4个迹象

二手房抛售狂潮愈演愈烈,一个房价危险信号,已经出现4个迹象

猫叔东山再起
2026-02-26 11:50:03
向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

李橑在北漂
2026-02-26 18:29:52
巴拿马总统彻底傻眼!发现强吞中国18亿资产,竟是自掘坟墓

巴拿马总统彻底傻眼!发现强吞中国18亿资产,竟是自掘坟墓

墨印斋
2026-02-27 12:21:47
梅西点球破门!险1分钟两球,破门之后不庆祝,苏亚雷斯造点

梅西点球破门!险1分钟两球,破门之后不庆祝,苏亚雷斯造点

奥拜尔
2026-02-27 10:39:46
比亚迪销量大跌,吉利反超成第一,技术强不如体验好

比亚迪销量大跌,吉利反超成第一,技术强不如体验好

沙雕小琳琳
2026-02-27 04:33:10
WTT大满贯男单:王楚钦逆转,F勒布伦强势胜出

WTT大满贯男单:王楚钦逆转,F勒布伦强势胜出

何嗀爱捕渔
2026-02-27 10:43:50
抵达中国不到24小时,默茨拿下大单,还没启程的特朗普,只能眼红

抵达中国不到24小时,默茨拿下大单,还没启程的特朗普,只能眼红

东极妙严
2026-02-26 17:58:13
孙子满月酒没通知我,我连夜收拾行李回老家,儿媳妇哭着追到车站

孙子满月酒没通知我,我连夜收拾行李回老家,儿媳妇哭着追到车站

老红点评社
2025-08-20 15:33:43
戈贝尔禁赛引爆篮坛争议,恶犯积分制漏洞百出,联盟判罚公平何在

戈贝尔禁赛引爆篮坛争议,恶犯积分制漏洞百出,联盟判罚公平何在

篮球看比赛
2026-02-27 14:19:16
十年前踩下刹车,中国躲开了币圈的惊天大坑,美国全球收割大戏

十年前踩下刹车,中国躲开了币圈的惊天大坑,美国全球收割大戏

冒泡泡的鱼儿
2026-02-26 17:59:05
金正恩:如果美国撤回对朝敌视政策,朝鲜没有理由不与美国友好相处

金正恩:如果美国撤回对朝敌视政策,朝鲜没有理由不与美国友好相处

界面新闻
2026-02-26 10:30:52
随着中国男篮逆转日本,韩国爆冷迎首败,世预赛最新出线形势如下

随着中国男篮逆转日本,韩国爆冷迎首败,世预赛最新出线形势如下

球场没跑道
2026-02-26 21:03:50
江苏一家去贝加尔湖旅游:一万六都花了,却为省200全家遇难

江苏一家去贝加尔湖旅游:一万六都花了,却为省200全家遇难

观察鉴娱
2026-02-24 09:48:21
同是谋划南下高铁,永州狂奔赣州停摆!结局早已注定?

同是谋划南下高铁,永州狂奔赣州停摆!结局早已注定?

观察眼看世界
2026-02-27 11:35:03
喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制!

喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制!

卷史
2026-02-27 14:07:52
投资95亿,高428米!海南第一高楼最新进展

投资95亿,高428米!海南第一高楼最新进展

GA环球建筑
2026-02-25 00:47:40
尾盘操作思路:有色上涨是有是留?大龙一句话告诉你!

尾盘操作思路:有色上涨是有是留?大龙一句话告诉你!

龙行天下虎
2026-02-27 14:41:26
云南天价拖车费越闹越大!车主被威胁,拖车公司被扒,果然不简单

云南天价拖车费越闹越大!车主被威胁,拖车公司被扒,果然不简单

观察鉴娱
2026-02-26 10:11:06
2026-02-27 15:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12373文章数 142570关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

中虎跳峡游客落水 目击者:其女友称"回去就要结婚的"

头条要闻

中虎跳峡游客落水 目击者:其女友称"回去就要结婚的"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

房产
健康
本地
数码
时尚

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

数码要闻

罗技G首款碳纤鼠标PRO X: Victory Edition发布:迈凯伦联名

今年春天最美搭配:西装+半裙,怎么穿都好看!

无障碍浏览 进入关怀版