网易首页 > 网易号 > 正文 申请入驻

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight

0
分享至

来源:市场资讯

(来源:机器之心)


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

火山引擎多媒体实验室和北京大学合作的论文《VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning》被选为本次会议口头汇报文章。


VQ-Insight: https://arxiv.org/pdf/2506.18564

Q-Insight: https://arxiv.org/pdf/2503.22679

⭐️训练与推理代码:https://github.com/bytedance/Q-Insight

开源模型:https://huggingface.co/ByteDance/Q-Insight

论文背景

随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着 AIGC 视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。

此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到 AIGC 视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。

渐进式视觉质量强化学习框架

图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的 “推理式 + 强化学习” 思路,拓展到自然视频和 AIGC 视频中,提出了推理式 AIGC 视频画质理解大模型 VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会 AIGC 视频偏好比较,AIGC 视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。

进一步,该方法提出了一种生成模型与质量评估模型 “共同进化” 的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight 自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如 DPO),也用于反向加强 VQ-Insight 的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现 “越生成越懂、越懂越能生” 的持续提升效果。


实验结果

实验结果充分验证了 VQ-Insight 在 AIGC 视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。

  • 在 AIGC 偏好比较任务上,VQ-Insight 在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。



  • 在 AIGC 多维度打分任务上,VQ-Insight 能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。


  • 在自然视频打分任务上,VQ-Insight 同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。



  • VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。


总结

VQ-Insight 将 “推理式 + 强化学习” 思路应用于 AIGC 视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight 能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把 “看得准” 转化为 “生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代 AIGC 视频生成技术的发展奠定了关键基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人伦崩塌,谁在毁掉我们的家庭?

人伦崩塌,谁在毁掉我们的家庭?

青苹果sht
2026-03-07 05:52:19
刘诗诗直播美的好权威,金丝眼镜+大波浪造型,让她美的发光了

刘诗诗直播美的好权威,金丝眼镜+大波浪造型,让她美的发光了

明星私服穿搭daily
2026-03-05 07:24:32
伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

闪电新闻
2026-03-07 14:00:07
历史由胜利者书写,所以国民党是否因为战败而被丑化了呢?

历史由胜利者书写,所以国民党是否因为战败而被丑化了呢?

大运河时空
2026-03-07 17:45:03
祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

老王说正义
2026-03-07 07:47:38
特朗普:伊朗“今天将遭到极其猛烈的打击”

特朗普:伊朗“今天将遭到极其猛烈的打击”

新华社
2026-03-07 19:52:04
吃相难看!迪丽热巴被困迪拜事件升级!猛料流出,杨幂体面尽成空

吃相难看!迪丽热巴被困迪拜事件升级!猛料流出,杨幂体面尽成空

阿废冷眼观察所
2026-03-08 03:52:21
两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

谈史论天地
2026-03-07 06:54:29
以军袭击已致黎巴嫩294人死亡1023人受伤

以军袭击已致黎巴嫩294人死亡1023人受伤

界面新闻
2026-03-07 22:00:44
人社部: 将加大对外贸、建筑、住宿、餐饮等劳动密集型行业就业扶持

人社部: 将加大对外贸、建筑、住宿、餐饮等劳动密集型行业就业扶持

证券时报
2026-03-07 10:51:24
特朗普发表声明:伊朗已向其中东邻国投降!这是由于美以的持续攻击才实现的

特朗普发表声明:伊朗已向其中东邻国投降!这是由于美以的持续攻击才实现的

爆角追踪
2026-03-07 21:09:51
伊朗高级官员说伊正在寻找新的美国目标进行打击

伊朗高级官员说伊正在寻找新的美国目标进行打击

新华社
2026-03-07 23:44:04
重力炸弹即将大规模上场,波斯面临更大的压力

重力炸弹即将大规模上场,波斯面临更大的压力

高博新视野
2026-03-06 17:49:29
西贝再暴大雷!总部人去楼空,新任领导威逼员工,300人讨薪无门

西贝再暴大雷!总部人去楼空,新任领导威逼员工,300人讨薪无门

离离言几许
2026-03-07 15:53:37
古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

扶苏史记
2026-03-07 15:16:48
深度揭秘 | 受贿5401万余元,上海市徐汇区委原书记鲍炳章,获刑14年!揭发他人犯罪,具有立功表现

深度揭秘 | 受贿5401万余元,上海市徐汇区委原书记鲍炳章,获刑14年!揭发他人犯罪,具有立功表现

一分为三看人生
2026-03-08 00:07:21
韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

老特有话说
2026-03-06 21:52:34
伊朗这场仗,已经卷入了18个国家

伊朗这场仗,已经卷入了18个国家

凤眼论
2026-03-07 07:52:20
突然爆火!超多人抢着要,上门服务500元一次,有人称赚了26万,专家:先冷静……

突然爆火!超多人抢着要,上门服务500元一次,有人称赚了26万,专家:先冷静……

浙江之声
2026-03-07 14:01:40
商务部:如再次引发全球半导体产供链危机,荷方必须对此承担全部责任

商务部:如再次引发全球半导体产供链危机,荷方必须对此承担全部责任

每日经济新闻
2026-03-07 21:14:20
2026-03-08 05:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2391865文章数 5729关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

游戏
数码
时尚
健康
手机

外媒:Xbox新主机恐成微软绝唱!失败即退出硬件市场

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

2026春夏一定要拥有的6只包,好看又百搭

转头就晕的耳石症,能开车上班吗?

手机要闻

网曝OPPO Find N6渲染图,或有橙色版本

无障碍浏览 进入关怀版