中科大与快手突破：AI实现视频生成质量实时评估|vr|视觉|推理|新模型|快手(软体)

中科大与快手突破：AI实现视频生成质量实时评估

2025-11-26 21:32:04　来源: 科技行者

北京举报

分享至

这项由中国科学院大学多媒体实验室、快手科技Kling团队以及南京大学共同完成的突破性研究，于2025年1月发表在计算机视觉领域的权威期刊上。研究团队的核心成员包括王群忠、刘杰、梁佳俊、蒋艺磊等多位来自不同机构的顶尖研究者。这项名为"VR-Thinker"的技术成果，标志着AI视频质量评估进入了一个全新的"思维时代"。感兴趣的读者可以通过论文编号arXiv:2510.10518v3查询完整研究详情。

说起视频生成AI，你可能已经见过那些能根据文字描述生成视频的神奇工具。然而，这些工具面临着一个巨大挑战：如何判断生成的视频质量好坏？这就像请一位美食评委品尝菜品，但这位评委要么只能草草看一眼就下结论，要么虽然仔细品尝但记忆力很差，尝到后面就忘了前面的味道。

传统的AI视频评判员面临着两个致命缺陷。第一个问题就像是给评委限制用餐时间：由于计算资源有限，AI只能看到视频中很少的几帧画面，就好比一部两小时的电影只能看十几个片段，很多精彩或问题的细节都会被错过。第二个问题更像是患了健忘症的评委：传统AI在开始时会把所有视觉信息一股脑装进"大脑"，然后开始纯文字思考，在思考过程中逐渐忘记之前看到的画面细节，导致判断失准。

研究团队提出的VR-Thinker解决方案，就像给AI评判员配备了一个智能助手和一个灵活的记忆系统。这个系统最大的创新在于让AI具备了"边看边想"的能力，而不是传统的"看完再想"模式。

具体来说，VR-Thinker的工作方式类似于一位经验丰富的电影评论家。当面对一部需要评价的电影时，这位评论家不会固执地只看开头几分钟就下结论，而是会在观看过程中主动选择重要场景进行深入分析。比如在评价一部动作电影时，评论家可能会说："前面的剧情设置不错，但我需要再看看中间的打斗场面和结尾的情感表达。"然后主动调取这些关键片段进行仔细观察。

VR-Thinker的"智能记忆窗口"就像是评论家的工作笔记。在传统方法中，AI就像是把所有笔记都摊在桌子上，桌子很快就被塞满了，后面再想记录新内容就没地方了。而VR-Thinker采用的记忆窗口机制，就像是使用一个活页笔记本，总是保留最新最重要的几页笔记，旧的内容会被整理成精华摘要保存，这样既不会忘记重要信息，又为新的观察留出了空间。

为了训练这个"智能评判员"，研究团队设计了一个三阶段的培养计划。第一阶段被称为"冷启动"，就像是给新手评委提供标准的评价示例和格式训练。研究团队精心挑选了一些高质量的视频评价案例，教会AI如何使用正确的思维格式和工具调用方法。这个阶段确保AI学会了基本的"看图说话"和工具使用技能。

第二阶段叫做"拒绝采样微调"，这个过程就像是筛选优秀学生作业。研究团队让AI对大量视频进行评价，然后仔细检查每份"作业"，只保留那些在各个维度判断都完全正确的高质量样本，用这些精选样本继续训练AI。这个过程大大提高了AI推理的准确性和质量。

第三阶段采用了"群体相对策略优化"技术，这就像是组织一场评委竞赛。AI会对同一个视频生成多个不同的评价结果，然后通过比较这些结果的质量，不断优化自己的评价策略。系统会奖励那些能够进行深入视觉推理、给出准确多维度判断的行为模式。

在实际应用中，VR-Thinker的工作流程充满了智能化的特色。当接到一个视频评价任务时，AI首先会查看视频的初始几帧，然后开始推理分析。如果AI发现仅凭这些画面无法做出准确判断，它会主动请求查看更多关键帧。比如在评价一个小提琴演奏视频时，AI可能会发现："通过前几帧我看到了演奏者的基本姿态，但需要更仔细观察手指动作和琴弓运动的细节。"然后它会精确地选择包含这些动作细节的画面进行深入分析。

每当AI获得新的视觉信息，它都会在"快照"标签中总结关键发现，将数千个视觉标记压缩成几十个文字描述，就像是把一幅画描述给盲人朋友听一样精确而简洁。在"思考"标签中，AI会展示其推理过程，就像是评委在心中默默分析各种因素。

VR-Thinker在三个主要的视频质量评测基准上都取得了显著的成功。在VideoGen Reward测试中，准确率达到了80.5%，在GenAI-Bench测试中达到82.3%，在MJ-Bench-Video测试中达到75.6%。这些数字看似抽象，但实际意义重大。以前的AI评判员就像是一位经常出错的裁判，而VR-Thinker就像是升级为了经验丰富、判断准确的专业评委。

特别值得注意的是，VR-Thinker在处理长视频时的优势更加明显。传统方法在面对长视频时就像是让人在跑马拉松时只能在起点、中点和终点各看一眼来判断整个比赛质量，而VR-Thinker则能够在整个过程中灵活地选择关键时刻进行观察。当研究团队专门测试复杂提示和长视频场景时，VR-Thinker相比其他方法的优势变得更加突出。

研究团队还进行了详细的消融实验来验证各个组件的重要性。当他们移除视觉推理功能，改为随机选择画面时，系统性能明显下降，这证明了"主动观察"的重要性。当去掉三阶段训练中的任何一个环节时，最终性能都会受到影响，其中拒绝采样微调阶段的贡献最为显著。

在奖励机制设计方面，研究团队创新性地将准确性奖励扩展为多维度评价。传统方法只关注"哪个视频更好"这个最终答案，就像考试只看总分。而VR-Thinker会同时评估文本对齐度、视觉质量、运动质量等多个具体维度，就像是给每个科目都打分，这样大大提高了训练效率和准确性。

系统还引入了"思维链增益奖励"，专门鼓励AI通过多轮视觉推理来提升判断准确性。这就像是奖励学生"多思考几遍再答题"的行为，鼓励AI不要急于下结论，而是通过获取更多视觉证据来做出更可靠的判断。

为了防止AI偷懒只进行文本推理而忽视视觉分析，研究团队还设计了"探索激励机制"。这个机制通过约束优化的方法，确保AI在评价过程中必须进行足够比例的多模态推理，就像是规定学生做题时必须展示完整的解题步骤一样。

VR-Thinker的成功不仅仅体现在数字上，更重要的是它为视频生成AI的质量控制开辟了新的道路。在AI视频生成技术快速发展的今天，如何准确评估生成视频的质量一直是制约行业发展的关键瓶颈。VR-Thinker就像是给这个行业配备了一位真正合格的"质检员"，能够公正、准确、细致地评估每一个作品。

这项技术的应用前景非常广阔。对于内容创作者来说，VR-Thinker可以帮助他们更好地优化视频生成参数，提高作品质量。对于视频平台来说，这种技术可以用于自动化的内容质量审核。对于AI研究者来说，VR-Thinker提供了一个可靠的工具来评估和改进视频生成模型。

当然，这项技术也存在一些限制。由于需要进行多轮推理和视觉分析，VR-Thinker的计算成本相对较高，推理时间也更长。研究团队正在探索如何在保持高质量的同时提高效率，比如针对简单视频案例自动缩短推理链长度。

从技术发展的角度看，VR-Thinker代表了多模态AI推理的一个重要进步。它成功地将"边看边想"的人类认知模式引入到了AI系统中，这种思路可能会启发更多领域的AI应用创新。无论是图像分析、文档理解还是其他需要复杂推理的任务，都可能从这种"主动获取信息并动态推理"的方法中受益。

说到底，VR-Thinker的成功证明了一个重要观点：让AI更像人类一样思考和观察，往往能带来显著的性能提升。这不仅仅是技术上的突破，更是对AI认知机制的深刻理解和创新应用。随着视频内容在数字世界中越来越重要，像VR-Thinker这样能够真正"理解"视频质量的AI工具，将在塑造我们的数字未来中发挥关键作用。

Q&A

Q1：VR-Thinker相比传统视频评价AI有什么突破？

A：VR-Thinker最大的突破是具备了"边看边想"的能力。传统AI只能看几帧画面就必须做判断，而VR-Thinker可以在评价过程中主动选择查看更多关键画面，并配备智能记忆系统避免遗忘，就像给AI评委配了助手和笔记本。

Q2：VR-Thinker是如何训练出来的？

A：研究团队采用了三阶段训练方法：第一阶段"冷启动"教会AI基本评价格式和工具使用；第二阶段"拒绝采样微调"只用高质量的正确样本训练；第三阶段"群体相对策略优化"通过竞赛方式不断优化AI的评价策略。

Q3：VR-Thinker的实际应用效果如何？

A：在三个主要测试基准上，VR-Thinker都达到了75%-82%的准确率，特别是在处理长视频和复杂场景时优势更加明显。这意味着它可以为视频生成AI提供可靠的质量评估，帮助内容创作者和平台提高视频质量。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.