网易首页 > 网易号 > 正文 申请入驻

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight

0
分享至

来源:市场资讯

(来源:机器之心)


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

火山引擎多媒体实验室和北京大学合作的论文《VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning》被选为本次会议口头汇报文章。


VQ-Insight: https://arxiv.org/pdf/2506.18564

Q-Insight: https://arxiv.org/pdf/2503.22679

⭐️训练与推理代码:https://github.com/bytedance/Q-Insight

开源模型:https://huggingface.co/ByteDance/Q-Insight

论文背景

随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着 AIGC 视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。

此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到 AIGC 视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。

渐进式视觉质量强化学习框架

图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的 “推理式 + 强化学习” 思路,拓展到自然视频和 AIGC 视频中,提出了推理式 AIGC 视频画质理解大模型 VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会 AIGC 视频偏好比较,AIGC 视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。

进一步,该方法提出了一种生成模型与质量评估模型 “共同进化” 的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight 自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如 DPO),也用于反向加强 VQ-Insight 的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现 “越生成越懂、越懂越能生” 的持续提升效果。


实验结果

实验结果充分验证了 VQ-Insight 在 AIGC 视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。

  • 在 AIGC 偏好比较任务上,VQ-Insight 在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。



  • 在 AIGC 多维度打分任务上,VQ-Insight 能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。


  • 在自然视频打分任务上,VQ-Insight 同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。



  • VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。


总结

VQ-Insight 将 “推理式 + 强化学习” 思路应用于 AIGC 视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight 能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把 “看得准” 转化为 “生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代 AIGC 视频生成技术的发展奠定了关键基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

罗掌柜体育
2026-01-08 06:10:03
四大人气股巅峰对决!利欧股份等谁是真王者?数据说真相

四大人气股巅峰对决!利欧股份等谁是真王者?数据说真相

慧眼看世界哈哈
2026-01-08 10:26:01
隆力奇旗下羊奶粉涉嫌传销,卖货“拉人头”遭多人举报

隆力奇旗下羊奶粉涉嫌传销,卖货“拉人头”遭多人举报

南方都市报
2026-01-08 16:19:37
画火吴营村日入800万,却喂不饱村民贪婪!他要逃离,太寒心

画火吴营村日入800万,却喂不饱村民贪婪!他要逃离,太寒心

鋭娱之乐
2026-01-04 21:37:14
折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

带你感受人间冷暖
2026-01-04 00:10:07
我老了,它却变年轻了,新一代奥迪A6L实车曝光

我老了,它却变年轻了,新一代奥迪A6L实车曝光

热点科技
2026-01-06 16:15:08
血染赛场!3+3+2+2!杨瀚森,真进步了!

血染赛场!3+3+2+2!杨瀚森,真进步了!

刺猬篮球
2026-01-08 17:15:46
美国扣押一艘与委内瑞拉有关、悬挂俄罗斯旗帜的石油运输船,外交部回应

美国扣押一艘与委内瑞拉有关、悬挂俄罗斯旗帜的石油运输船,外交部回应

环球网资讯
2026-01-08 15:38:17
六小天鹅承载国足未来,U23亚洲杯成世界杯梦想启航点

六小天鹅承载国足未来,U23亚洲杯成世界杯梦想启航点

中山印象体育摄影师
2026-01-08 14:42:13
30年前,大陆最美的两个女人,都是绝色美人

30年前,大陆最美的两个女人,都是绝色美人

TVB的四小花
2026-01-08 12:36:56
去文凭时代要到来?罗振重磅预言,3年内高中生或可进大厂拿高薪

去文凭时代要到来?罗振重磅预言,3年内高中生或可进大厂拿高薪

通文知史
2026-01-07 20:35:03
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

小莜读史
2025-12-08 20:29:11
冲击最佳新秀!19岁啊,打CBA这么猛

冲击最佳新秀!19岁啊,打CBA这么猛

刺猬篮球
2026-01-08 23:09:47
曝2026春晚彩排路透!小品领军人物确认回归,网友:终于等到这天

曝2026春晚彩排路透!小品领军人物确认回归,网友:终于等到这天

有范又有料
2026-01-07 10:43:16
大龄剩女崩溃的瞬间是什么?网友:连舔狗都不跟她吃饭了

大龄剩女崩溃的瞬间是什么?网友:连舔狗都不跟她吃饭了

另子维爱读史
2025-11-29 07:35:28
斯普利特不再迷信五小阵容,杨瀚森终于获得出头之日!

斯普利特不再迷信五小阵容,杨瀚森终于获得出头之日!

爱体育
2026-01-08 23:14:57
美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

小熊侃史
2026-01-05 10:37:37
yoyo突然澄清、敬文紧跟发声,沉默两年的东方甄选旧事又翻车

yoyo突然澄清、敬文紧跟发声,沉默两年的东方甄选旧事又翻车

橙星文娱
2026-01-08 13:02:06
拜合拉木对阵伊拉克U23首发登场,预选赛3场4球+帽子戏法

拜合拉木对阵伊拉克U23首发登场,预选赛3场4球+帽子戏法

懂球帝
2026-01-08 20:55:12
汤唯大学时期的照片,难怪当年李安梁朝伟会选她当女主角!

汤唯大学时期的照片,难怪当年李安梁朝伟会选她当女主角!

南方城市网
2026-01-06 12:08:30
2026-01-09 00:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1964423文章数 5194关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

家居
房产
健康
公开课
军事航空

家居要闻

理性主义 冷调自由居所

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版