网易首页 > 网易号 > 正文 申请入驻

QVGen让「超低比特视频生成量化」真正可用!

0
分享至



视频生成扩散模型越做越大:2B、5B、14B…… 效果提升很快,但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”,把显存和算力成本打下来,真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷:一到 3/4 bit,视频生成的量化感知训练(QAT)往往比图像更难训、更不稳定,质量掉得更狠 —— 不是 “略降一点”,而是直接不可用。



图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。(a)原始模型;(b)该论文所提出方案;(c-e)已有的量化感知训练方案;(f)已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。



  • 论文地址:https://arxiv.org/pdf/2505.11497
  • 代码地址:https://github.com/ModelTC/QVGen
  • 模型地址:https://huggingface.co/collections/Harahan/qvgen



图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”?

QVGen 的切入点很直接:视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察(见图表 3):在相近规模、相似训练设置下,视频扩散模型的梯度范数明显更大,这会让优化过程更不稳定,最终导致低比特训练难以收敛、生成质量难以维持。

换句话说,如果不先解决 “训练不稳” 这个根因,只靠常见量化技巧做修补,视频生成很难真正落地。



图表 3 第一行为已有方案(蓝色)与论文方案(黄色)在量化感知训练中的梯度范数比较;第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么:先把训练救稳,再把推理成本 “还回去”


QVGen 的核心思路是 “训练期做增强、推理期不背包袱”,它把一个看似矛盾的目标拆成了两步来解决 (见图表 2)。

第一步,训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重,而是为了在低比特条件下降低梯度范数、提升训练稳定性,让 3/4-bit 的 QAT 先 “训得动、训得好”。此外,除了图表 3 中的实验论证,在论文中还提供了详细的理论证明。

第二步,训练过程中逐步移除 Φ,让最终推理阶段不再依赖这个模块。作者的观察是:随着训练推进,Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay:反复做分解,识别低影响的分量,并用基于秩的正则把这些分量逐步衰减到 0,直到 Φ 被完全消掉。最终效果是:推理阶段几乎不增加额外开销,但训练阶段又能获得稳定性红利。

结果有多硬:4-bit 接近全精度,3-bit 也把指标拉回 “可用区间”


在主实验中,QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰:很多方法在 4-bit 下仍有明显退化,到了 3-bit 更加明显;QVGen 在 3-bit 能大幅恢复质量,在 4-bit 则可以做到接近全精度(见图表 4)。

更关键的是,它不只在小模型上有效。论文还展示了在更大的视频生成模型上(例如 5B、14B 级别,以及更高分辨率设置),4-bit 仍能保持接近全精度的总体水平(见图表 5-6)。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” (见图表 7-8)。



图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 与已有方案在 VBench 上的性能比较。



图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。



图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。



图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。



图表 8 QVGen 在 Wan 14B 上的可视化结果。

不只是省显存:它能带来真实加速,还能和其他加速方法叠加


对部署来说,低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省(例如 4× 级别的压缩量级),从而让同样的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

更实际的一点是:QVGen 使用标准的均匀量化思路,意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的:例如与某些 3D attention 加速方案叠加后,推理速度还能进一步提升(见图表 9)。



图表 9 (左)模型大小对比; (中)模型加速对比;(右)与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型,黄色代表 Wan 14B 模型。

训练成本会不会更高?论文给出的答案是 “几乎不多花”

很多读者会担心:训练期加了 Φ、还要做 rank-decay,会不会导致训练成本暴涨?论文做了训练效率分析,结论是:相对一些蒸馏式 QAT 基线,QVGen 的额外训练开销很小(例如 GPU-days、峰值显存几乎不变的量级),但在最终生成质量上仍能拉开明显差距(见图表 10)。



图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。

总结:视频扩散也能 4bit 接近满血,先稳训练再轻推理!


当下视频生成扩散模型越来越大,但 3/4-bit 量化一落到视频上,常见问题是:QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接:视频低比特量化的关键不只是 “怎么量化”,而是先把训练稳定性问题解决,否则再好的量化细节也很难落地。

在这一点上,QVGen 给出了一套完整范式,主要包括:

  • 训练期引入辅助模块 Φ:用于降低梯度范数、提升低比特 QAT 的稳定性,让 3/4-bit 训练 “跑得起来、训得下去”;
  • rank-decay 逐步移除 Φ:训练过程中识别并衰减低贡献成分,最终把 Φ 完全去掉,使推理阶段几乎不背额外负担;
  • 面向部署的低比特设置:支持 W4A4/W3A3,并强调可对接现有推理实现;在显存上带来明显下降,同时还能与其他推理加速方法叠加。

总体来看,QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果,并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景,这是一条很实用的路线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺森林狼比赛间隙,NBA赛场播放文班亚马少林寺修行短片

马刺森林狼比赛间隙,NBA赛场播放文班亚马少林寺修行短片

懂球帝
2026-05-16 14:45:22
大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

长安一孤客
2026-05-15 19:26:59
黄仁勋全家福曝光!儿女金发碧眼,网友:华人基因去哪儿了?

黄仁勋全家福曝光!儿女金发碧眼,网友:华人基因去哪儿了?

小蜜情感说
2026-05-16 08:04:43
为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

老特有话说
2026-05-16 17:52:16
好奇怪,他年轻帅得一塌糊涂,老了丑得一言难尽了

好奇怪,他年轻帅得一塌糊涂,老了丑得一言难尽了

情感大头说说
2026-05-16 20:18:50
时隔9年重返西决!文班19+6+3封盖打爆双塔,太子32分客场擒狼

时隔9年重返西决!文班19+6+3封盖打爆双塔,太子32分客场擒狼

钉钉陌上花开
2026-05-16 12:16:54
马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

童叔不飙车
2026-05-15 22:51:51
FBI悬赏20万美元通缉美国前女特工:13年前入境伊朗后叛国,传递五角大楼机密

FBI悬赏20万美元通缉美国前女特工:13年前入境伊朗后叛国,传递五角大楼机密

红星新闻
2026-05-16 16:28:20
看病大变天,6月份开始,挂号报销都有改变,早知早准备!

看病大变天,6月份开始,挂号报销都有改变,早知早准备!

小谈食刻美食
2026-05-15 07:25:43
唯爱巴萨!拉什福德愿降薪40%签5年:相当于“免费”踢2年

唯爱巴萨!拉什福德愿降薪40%签5年:相当于“免费”踢2年

叶青足球世界
2026-05-16 16:13:04
一场2:1让国足迎来大发现,邵佳一如获至宝,中场喜添新全能猛将

一场2:1让国足迎来大发现,邵佳一如获至宝,中场喜添新全能猛将

零度眼看球
2026-05-16 07:00:34
高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

菠萝欣赏家本尊
2026-05-16 12:07:27
半导体、存储芯片的牛市大周期还在后面!稀缺龙头曝光,这只12天大涨33%!

半导体、存储芯片的牛市大周期还在后面!稀缺龙头曝光,这只12天大涨33%!

证券市场周刊
2026-05-16 12:41:47
特朗普访华之后,美国留学将迎来五年来最强政策利好

特朗普访华之后,美国留学将迎来五年来最强政策利好

留学生日报
2026-05-15 20:03:57
中国买波音,美国买中国货,中美这盘大生意,很多人只看懂了一半

中国买波音,美国买中国货,中美这盘大生意,很多人只看懂了一半

潋滟晴方DAY
2026-05-16 13:12:14
难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

魔都姐姐杂谈
2026-05-14 22:09:10
中央定调!2026养老金或再调整,为何1955年以前出生的更受益?

中央定调!2026养老金或再调整,为何1955年以前出生的更受益?

云鹏叙事
2026-05-15 23:59:18
10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

阿龙美食记
2026-05-15 14:23:55
国民党台北市中正万华议员初选结果出炉,66岁的张延廷将军出线

国民党台北市中正万华议员初选结果出炉,66岁的张延廷将军出线

海峡导报社
2026-05-16 21:28:10
特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

近史博览
2026-05-16 09:59:06
2026-05-16 21:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13007文章数 142650关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

游戏
数码
旅游
健康
公开课

时代落幕!国行NS天猫店将终止运营:结束了

数码要闻

华为Mate XT、Mate X6官方翻新版上架:售15299元、11099元起

旅游要闻

“5·19中国旅游日”倒计时活动在常州举办

专家揭秘干细胞回输的安全风险

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版