网易首页 > 网易号 > 正文 申请入驻

火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

0
分享至



火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

火山引擎多媒体实验室和北京大学合作的论文《VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning》被选为本次会议口头汇报文章。



VQ-Insight: https://arxiv.org/pdf/2506.18564

Q-Insight: https://arxiv.org/pdf/2503.22679

⭐️训练与推理代码:https://github.com/bytedance/Q-Insight

开源模型:https://huggingface.co/ByteDance/Q-Insight

论文背景

随着视频生成模型的涌现,仅凭一句提示词或一张图片生成逼真、生动的高质感视频正逐渐成为现实。随着 AIGC 视频技术加速演进,如何在后训练阶段进一步提升模型的生成质量变得尤为关键。可靠的质量评估与偏好选择不仅是评价工具,更是后训练的重要驱动力,它们能够精确引导视频生成模型向人眼感知对齐,从而显著提升画面质量与时序一致性。

此前,北京大学与火山引擎多媒体实验室联合提出了首个基于强化学习训练的多模态大模型图像画质理解方案Q-Insight。该方法摆脱了对大规模文本标注的依赖,充分挖掘大模型的推理潜力,使其能够深入思考图像质量背后的本质因素。然而,将这一思路扩展到 AIGC 视频评估仍面临新的挑战,即:1)如何更有效地激发大模型的时序感知能力与多维度画质理解能力;2)如何建立评估模型与生成模型的反馈互动,使两者在优化过程中获得动态增强,相互促进。

渐进式视觉质量强化学习框架

图像只捕捉视频的一个切片,用户真实的视频观看体验还取决于时间维度,例如运动是否自然?色彩是否在动态中稳定?因此,我们把 Q-Insight 的 “推理式 + 强化学习” 思路,拓展到自然视频和 AIGC 视频中,提出了推理式 AIGC 视频画质理解大模型VQ-Insight。该方法使用渐进式的视觉质量强化学习框架,包括图像打分预热阶段、任务驱动的通用时序学习阶段以及与视频生成模型的联合微调阶段。通过由易到难、由通用到具体的视频质量打分学习,仅使用少量数据就能教会 AIGC 视频偏好比较,AIGC 视频多维度打分,自然视频打分等多项任务,并最终建立和下游生成模型的专项评估能力。同时,该方法引入时序建模奖励函数和长度控制奖励函数,鼓励大模型探索视频帧间的相关性和连贯性,并提供对于视频质量线索的丰富分析,增强偏好比较和分数回归的准确性。

进一步,该方法提出了一种生成模型与质量评估模型 “共同进化” 的联合训练方式:生成模型每一轮都会产生一批新视频,VQ-Insight 自动从中挑选出更好的和更差的样本,构建高质量偏好数据;这些偏好数据既用于继续优化视频生成模型(如 DPO),也用于反向加强 VQ-Insight 的偏好理解能力,使其逐步适配并引导当前的生成模型。通过这种闭环式的协同优化,生成模型和评估模型会随着迭代不断变强,实现 “越生成越懂、越懂越能生” 的持续提升效果。



实验结果

实验结果充分验证了 VQ-Insight 在 AIGC 视频偏好比较,多维度打分和自然视频打分任务中的卓越表现。

  • 在 AIGC 偏好比较任务上,VQ-Insight 在多个公开数据集上的表现均超过当前最先进的方法,并能够从视觉质量、时序一致性、动态程度和视频真实性方面提供完整详细的推理过程。





  • 在 AIGC 多维度打分任务上,VQ-Insight 能够在空间质量、时序质量和文本视频一致性打分上都取得最优性能。



  • 在自然视频打分任务上,VQ-Insight 同样表现出出色的分数拟合精确度,特别是在域外数据集上泛化能力突出。





  • VQ-Insight 强大的 AIGC 视频偏好比较能力,可直接应用于视频生成模型的直接偏好优化(DPO)。如图所示,基于 VQ-Insight 的方案相比于生成模型基线和对比方法,有效地缓解了错误生成的问题,并有着更鲜艳的色彩和动态。



总结

VQ-Insight 将 “推理式 + 强化学习” 思路应用于 AIGC 视频画质理解任务中,在偏好比较、多维度画质打分与自然视频质量评估等任务上均取得了突破性表现。通过渐进式视觉质量强化学习框架与创新的时序奖励机制,VQ-Insight 能够以极少的数据实现强泛化和强解释性,精准捕捉视频的空间清晰度、动态一致性、内容真实性等多维度质量特征。更重要的是,VQ-Insight 已能直接用于生成模型的后训练,成为生成视频训练的可插拔奖励与偏好模块,把 “看得准” 转化为 “生成得更好”,为未来的视频生成模型带来更稳定、更符合人眼感知的画面质量,为下一代 AIGC 视频生成技术的发展奠定了关键基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
铟价大涨88%!四大龙头价值重估,谁的护城河更稳?

铟价大涨88%!四大龙头价值重估,谁的护城河更稳?

慧眼看世界哈哈
2026-02-28 06:42:18
中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

中国男篮逆转日本不到24小时,恶心的一幕发生,原来郭士强没说谎

小徐讲八卦
2026-02-28 06:04:53
人的基因有多强大?网友:今年剪了个短发,我爸一看就害怕!

人的基因有多强大?网友:今年剪了个短发,我爸一看就害怕!

另子维爱读史
2026-02-27 21:05:30
鲁比奥终于认错了,希望中国解除制裁,给他一个陪特朗普访华机会

鲁比奥终于认错了,希望中国解除制裁,给他一个陪特朗普访华机会

兰妮搞笑分享
2026-02-27 09:13:18
为什么你总能买在“启动点”,却拿不住翻倍股?这三大心理在作祟

为什么你总能买在“启动点”,却拿不住翻倍股?这三大心理在作祟

小白鸽财经
2026-01-16 07:05:03
宁抓国际友人,不抓莫斯科少爷:俄罗斯1.4亿人中有两千万不能碰

宁抓国际友人,不抓莫斯科少爷:俄罗斯1.4亿人中有两千万不能碰

黄娜老师
2026-02-27 03:15:43
还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

家居设计师苏哥
2026-02-13 10:57:27
痛心!江西跑友刘涛去世,仅51岁,生前坚持晨跑,是3家公司老板

痛心!江西跑友刘涛去世,仅51岁,生前坚持晨跑,是3家公司老板

离离言几许
2026-02-25 10:43:45
无风险套利!“依法黑吃黑”,收割2000亿

无风险套利!“依法黑吃黑”,收割2000亿

大猫财经Pro
2026-02-27 18:59:23
库明加两战轰44+16+7,主帅公开称赞他无私!老鹰两笔1换2皆大赚

库明加两战轰44+16+7,主帅公开称赞他无私!老鹰两笔1换2皆大赚

锅子篮球
2026-02-27 13:59:15
国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

杨哥乒乓
2026-02-25 23:17:41
巴萨拿到了最好的抽签结果,巴黎和皇马是下下签

巴萨拿到了最好的抽签结果,巴黎和皇马是下下签

米奇兔
2026-02-27 19:59:50
他是中央组织部原部长,69岁官至正国级,如今长子是全国政协委员

他是中央组织部原部长,69岁官至正国级,如今长子是全国政协委员

冰雅忆史
2026-02-28 09:04:22
“你和我爸长得一样!”河南一女孩发现鱼贩和父亲长得特像,鉴定结果出人意料......

“你和我爸长得一样!”河南一女孩发现鱼贩和父亲长得特像,鉴定结果出人意料......

谭老师地理大课堂
2026-02-28 00:00:42
前所未有!特朗普对华做出一项承诺,盟友们都懵了:中国又没求他

前所未有!特朗普对华做出一项承诺,盟友们都懵了:中国又没求他

芊芊子吟
2026-02-27 18:00:08
欧冠又现“死亡”半区!6大豪门齐聚 阿森纳获绝世好签 或直通4强

欧冠又现“死亡”半区!6大豪门齐聚 阿森纳获绝世好签 或直通4强

我爱英超
2026-02-27 19:38:34
东北男人“新战袍”:4000元的迪桑特,成了体制内的隐形工牌

东北男人“新战袍”:4000元的迪桑特,成了体制内的隐形工牌

毒sir财经
2026-02-25 23:40:03
赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

快科技
2026-02-27 09:37:04
一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

你是我心中最美星空
2026-02-27 07:53:59
2026-02-28 10:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
游戏
艺术
本地
军事航空

转头就晕的耳石症,能开车上班吗?

《风屿奇航》3月18日抢测 MC风像素沙盒生存冒险

艺术要闻

这幅草书中19个字,您能一眼看懂吗?“徐娘半老”含义引热议!

本地新闻

津南好·四时总相宜

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版