网易首页 > 网易号 > 正文 申请入驻

火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

0
分享至

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

火山引擎多媒体实验室和北京大学合作的论文《VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning》被选为本次会议口头汇报文章。

VQ-Insight: https://arxiv.org/pdf/2506.18564

Q-Insight: https://arxiv.org/pdf/2503.22679

⭐️训练与推理代码:https://github.com/bytedance/Q-Insight

开源模型:https://huggingface.co/ByteDance/Q-Insight

论文背景

随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着 AIGC 视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。

此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到 AIGC 视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。

渐进式视觉质量强化学习框架

图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的 “推理式 + 强化学习” 思路,拓展到自然视频和 AIGC 视频中,提出了推理式 AIGC 视频画质理解大模型VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会 AIGC 视频偏好比较,AIGC 视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。

进一步,该方法提出了一种生成模型与质量评估模型 “共同进化” 的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight 自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如 DPO),也用于反向加强 VQ-Insight 的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现 “越生成越懂、越懂越能生” 的持续提升效果。

实验结果

实验结果充分验证了 VQ-Insight 在 AIGC 视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。

  • 在 AIGC 偏好比较任务上,VQ-Insight 在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。

  • 在 AIGC 多维度打分任务上,VQ-Insight 能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。

  • 在自然视频打分任务上,VQ-Insight 同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。

  • VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。

总结

VQ-Insight 将 “推理式 + 强化学习” 思路应用于 AIGC 视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight 能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把 “看得准” 转化为 “生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代 AIGC 视频生成技术的发展奠定了关键基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

扬子晚报
2026-06-03 07:37:03
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

深圳梦
2026-06-02 20:54:51
女子借网贷转账给辅警男友,“利滚利”后还不上3万元自缢身亡 男方被判赔17万余元

女子借网贷转账给辅警男友,“利滚利”后还不上3万元自缢身亡 男方被判赔17万余元

红星新闻
2026-06-03 18:05:18
NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

NBA官宣总决赛裁判大名单:福斯特托尼兄弟等四大名哨领衔

醉卧浮生
2026-06-03 00:41:39
陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

大象新闻
2026-06-03 16:47:13
问界回应M9起火事件:前车掉落金属部件拖行引燃,非车辆自身原因

问界回应M9起火事件:前车掉落金属部件拖行引燃,非车辆自身原因

热点科技
2026-06-03 14:01:20
特朗普政府提议对来自包括中国内地及中国香港在内的60个经济体的进口商品征收额外税赋,外交部:关税战、贸易战不符合任何一方的利益

特朗普政府提议对来自包括中国内地及中国香港在内的60个经济体的进口商品征收额外税赋,外交部:关税战、贸易战不符合任何一方的利益

农民日报
2026-06-03 15:50:00
今日最惨股,是一只券商股,股价已跌83%,今天又闪崩跌停!

今日最惨股,是一只券商股,股价已跌83%,今天又闪崩跌停!

丁丁鲤史纪
2026-06-03 16:32:22
31条中日航线5月取消全部航班

31条中日航线5月取消全部航班

财联社
2026-06-03 15:56:05
百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

扬子晚报
2026-06-02 22:40:00
太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

火山詩话
2026-06-03 11:47:35
欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

火山詩话
2026-06-03 11:06:12
里克尔梅:我想看到巴萨降入西乙,只希望皇马赢

里克尔梅:我想看到巴萨降入西乙,只希望皇马赢

懂球帝
2026-06-03 15:03:47
痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

小鋭有话说
2026-06-03 11:19:08
晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

大鱼简科
2026-06-03 11:38:09
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
89岁魏宗万逝世,他与二婚妻子走过50年金婚,这才是德艺双馨

89岁魏宗万逝世,他与二婚妻子走过50年金婚,这才是德艺双馨

社会日日鲜
2026-06-03 08:07:39
网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

网传同济大学解聘在岗教师,教师职称涵盖讲师、副教授、教授?

文忆天下
2026-06-03 07:09:35
2026-06-03 18:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

亲子
教育
游戏
本地
公开课

亲子要闻

想让孩子长高,到底怎么运动?专家一次讲透

教育要闻

【草原英雄征途】锡林郭勒·少年那达慕成长营

《漫威金刚狼》确认无收藏版!也没有追加计划

本地新闻

用杨柳青年画的方式,打开天津

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版