网易首页 > 网易号 > 正文 申请入驻

中科大与快手突破:AI实现视频生成质量实时评估

0
分享至


这项由中国科学院大学多媒体实验室、快手科技Kling团队以及南京大学共同完成的突破性研究,于2025年1月发表在计算机视觉领域的权威期刊上。研究团队的核心成员包括王群忠、刘杰、梁佳俊、蒋艺磊等多位来自不同机构的顶尖研究者。这项名为"VR-Thinker"的技术成果,标志着AI视频质量评估进入了一个全新的"思维时代"。感兴趣的读者可以通过论文编号arXiv:2510.10518v3查询完整研究详情。

说起视频生成AI,你可能已经见过那些能根据文字描述生成视频的神奇工具。然而,这些工具面临着一个巨大挑战:如何判断生成的视频质量好坏?这就像请一位美食评委品尝菜品,但这位评委要么只能草草看一眼就下结论,要么虽然仔细品尝但记忆力很差,尝到后面就忘了前面的味道。

传统的AI视频评判员面临着两个致命缺陷。第一个问题就像是给评委限制用餐时间:由于计算资源有限,AI只能看到视频中很少的几帧画面,就好比一部两小时的电影只能看十几个片段,很多精彩或问题的细节都会被错过。第二个问题更像是患了健忘症的评委:传统AI在开始时会把所有视觉信息一股脑装进"大脑",然后开始纯文字思考,在思考过程中逐渐忘记之前看到的画面细节,导致判断失准。

研究团队提出的VR-Thinker解决方案,就像给AI评判员配备了一个智能助手和一个灵活的记忆系统。这个系统最大的创新在于让AI具备了"边看边想"的能力,而不是传统的"看完再想"模式。

具体来说,VR-Thinker的工作方式类似于一位经验丰富的电影评论家。当面对一部需要评价的电影时,这位评论家不会固执地只看开头几分钟就下结论,而是会在观看过程中主动选择重要场景进行深入分析。比如在评价一部动作电影时,评论家可能会说:"前面的剧情设置不错,但我需要再看看中间的打斗场面和结尾的情感表达。"然后主动调取这些关键片段进行仔细观察。

VR-Thinker的"智能记忆窗口"就像是评论家的工作笔记。在传统方法中,AI就像是把所有笔记都摊在桌子上,桌子很快就被塞满了,后面再想记录新内容就没地方了。而VR-Thinker采用的记忆窗口机制,就像是使用一个活页笔记本,总是保留最新最重要的几页笔记,旧的内容会被整理成精华摘要保存,这样既不会忘记重要信息,又为新的观察留出了空间。

为了训练这个"智能评判员",研究团队设计了一个三阶段的培养计划。第一阶段被称为"冷启动",就像是给新手评委提供标准的评价示例和格式训练。研究团队精心挑选了一些高质量的视频评价案例,教会AI如何使用正确的思维格式和工具调用方法。这个阶段确保AI学会了基本的"看图说话"和工具使用技能。

第二阶段叫做"拒绝采样微调",这个过程就像是筛选优秀学生作业。研究团队让AI对大量视频进行评价,然后仔细检查每份"作业",只保留那些在各个维度判断都完全正确的高质量样本,用这些精选样本继续训练AI。这个过程大大提高了AI推理的准确性和质量。

第三阶段采用了"群体相对策略优化"技术,这就像是组织一场评委竞赛。AI会对同一个视频生成多个不同的评价结果,然后通过比较这些结果的质量,不断优化自己的评价策略。系统会奖励那些能够进行深入视觉推理、给出准确多维度判断的行为模式。

在实际应用中,VR-Thinker的工作流程充满了智能化的特色。当接到一个视频评价任务时,AI首先会查看视频的初始几帧,然后开始推理分析。如果AI发现仅凭这些画面无法做出准确判断,它会主动请求查看更多关键帧。比如在评价一个小提琴演奏视频时,AI可能会发现:"通过前几帧我看到了演奏者的基本姿态,但需要更仔细观察手指动作和琴弓运动的细节。"然后它会精确地选择包含这些动作细节的画面进行深入分析。

每当AI获得新的视觉信息,它都会在"快照"标签中总结关键发现,将数千个视觉标记压缩成几十个文字描述,就像是把一幅画描述给盲人朋友听一样精确而简洁。在"思考"标签中,AI会展示其推理过程,就像是评委在心中默默分析各种因素。

VR-Thinker在三个主要的视频质量评测基准上都取得了显著的成功。在VideoGen Reward测试中,准确率达到了80.5%,在GenAI-Bench测试中达到82.3%,在MJ-Bench-Video测试中达到75.6%。这些数字看似抽象,但实际意义重大。以前的AI评判员就像是一位经常出错的裁判,而VR-Thinker就像是升级为了经验丰富、判断准确的专业评委。

特别值得注意的是,VR-Thinker在处理长视频时的优势更加明显。传统方法在面对长视频时就像是让人在跑马拉松时只能在起点、中点和终点各看一眼来判断整个比赛质量,而VR-Thinker则能够在整个过程中灵活地选择关键时刻进行观察。当研究团队专门测试复杂提示和长视频场景时,VR-Thinker相比其他方法的优势变得更加突出。

研究团队还进行了详细的消融实验来验证各个组件的重要性。当他们移除视觉推理功能,改为随机选择画面时,系统性能明显下降,这证明了"主动观察"的重要性。当去掉三阶段训练中的任何一个环节时,最终性能都会受到影响,其中拒绝采样微调阶段的贡献最为显著。

在奖励机制设计方面,研究团队创新性地将准确性奖励扩展为多维度评价。传统方法只关注"哪个视频更好"这个最终答案,就像考试只看总分。而VR-Thinker会同时评估文本对齐度、视觉质量、运动质量等多个具体维度,就像是给每个科目都打分,这样大大提高了训练效率和准确性。

系统还引入了"思维链增益奖励",专门鼓励AI通过多轮视觉推理来提升判断准确性。这就像是奖励学生"多思考几遍再答题"的行为,鼓励AI不要急于下结论,而是通过获取更多视觉证据来做出更可靠的判断。

为了防止AI偷懒只进行文本推理而忽视视觉分析,研究团队还设计了"探索激励机制"。这个机制通过约束优化的方法,确保AI在评价过程中必须进行足够比例的多模态推理,就像是规定学生做题时必须展示完整的解题步骤一样。

VR-Thinker的成功不仅仅体现在数字上,更重要的是它为视频生成AI的质量控制开辟了新的道路。在AI视频生成技术快速发展的今天,如何准确评估生成视频的质量一直是制约行业发展的关键瓶颈。VR-Thinker就像是给这个行业配备了一位真正合格的"质检员",能够公正、准确、细致地评估每一个作品。

这项技术的应用前景非常广阔。对于内容创作者来说,VR-Thinker可以帮助他们更好地优化视频生成参数,提高作品质量。对于视频平台来说,这种技术可以用于自动化的内容质量审核。对于AI研究者来说,VR-Thinker提供了一个可靠的工具来评估和改进视频生成模型。

当然,这项技术也存在一些限制。由于需要进行多轮推理和视觉分析,VR-Thinker的计算成本相对较高,推理时间也更长。研究团队正在探索如何在保持高质量的同时提高效率,比如针对简单视频案例自动缩短推理链长度。

从技术发展的角度看,VR-Thinker代表了多模态AI推理的一个重要进步。它成功地将"边看边想"的人类认知模式引入到了AI系统中,这种思路可能会启发更多领域的AI应用创新。无论是图像分析、文档理解还是其他需要复杂推理的任务,都可能从这种"主动获取信息并动态推理"的方法中受益。

说到底,VR-Thinker的成功证明了一个重要观点:让AI更像人类一样思考和观察,往往能带来显著的性能提升。这不仅仅是技术上的突破,更是对AI认知机制的深刻理解和创新应用。随着视频内容在数字世界中越来越重要,像VR-Thinker这样能够真正"理解"视频质量的AI工具,将在塑造我们的数字未来中发挥关键作用。

Q&A

Q1:VR-Thinker相比传统视频评价AI有什么突破?

A:VR-Thinker最大的突破是具备了"边看边想"的能力。传统AI只能看几帧画面就必须做判断,而VR-Thinker可以在评价过程中主动选择查看更多关键画面,并配备智能记忆系统避免遗忘,就像给AI评委配了助手和笔记本。

Q2:VR-Thinker是如何训练出来的?

A:研究团队采用了三阶段训练方法:第一阶段"冷启动"教会AI基本评价格式和工具使用;第二阶段"拒绝采样微调"只用高质量的正确样本训练;第三阶段"群体相对策略优化"通过竞赛方式不断优化AI的评价策略。

Q3:VR-Thinker的实际应用效果如何?

A:在三个主要测试基准上,VR-Thinker都达到了75%-82%的准确率,特别是在处理长视频和复杂场景时优势更加明显。这意味着它可以为视频生成AI提供可靠的质量评估,帮助内容创作者和平台提高视频质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉即将迎来中到大雪,气温最低-4℃,还有6到8级大风

武汉即将迎来中到大雪,气温最低-4℃,还有6到8级大风

鲁中晨报
2026-01-15 14:47:03
张庆鹏:球队出现很多的问题,都有华丽履历但篮球不是一个人运动

张庆鹏:球队出现很多的问题,都有华丽履历但篮球不是一个人运动

狼叔评论
2026-01-15 23:14:03
美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

美国对中国渗透没白费,扶持的“内鬼”,终于开始在中国露头了

历史求知所
2025-12-01 11:30:06
马士基股价跌幅扩大,目前下跌7.5%

马士基股价跌幅扩大,目前下跌7.5%

每日经济新闻
2026-01-15 19:49:04
阿里杀疯了!把支付宝/淘宝/闪购/飞猪/高德,都交给了一个AI

阿里杀疯了!把支付宝/淘宝/闪购/飞猪/高德,都交给了一个AI

沃垠AI
2026-01-15 11:50:42
湖北武汉一景区飞刀表演疑失误,尖刀砸中演员面部后弹飞;景区回应:未接到相关情况通知,演出正常进行

湖北武汉一景区飞刀表演疑失误,尖刀砸中演员面部后弹飞;景区回应:未接到相关情况通知,演出正常进行

扬子晚报
2026-01-15 15:06:06
创始人刚宣布“落户”杭州,还悬赏666元全网征名,“死了么”App突然被下架!“活着么”等模仿者大量出现

创始人刚宣布“落户”杭州,还悬赏666元全网征名,“死了么”App突然被下架!“活着么”等模仿者大量出现

每日经济新闻
2026-01-15 23:55:14
中方二字强表态,日方交涉无望,高市兵行险招,打算提前大选?

中方二字强表态,日方交涉无望,高市兵行险招,打算提前大选?

田园小归
2026-01-15 08:35:43
不论情人或夫妻,让男人长期有感觉的女人,往往具备3个特质

不论情人或夫妻,让男人长期有感觉的女人,往往具备3个特质

叶飞飞情感屋
2026-01-15 16:10:02
聂卫平:耀邦叔叔

聂卫平:耀邦叔叔

徐庆全八十年代
2026-01-15 19:16:46
广东新娘挂两串葱出嫁走红,皮肤白皙新郎不撒手,网友:捡到宝了

广东新娘挂两串葱出嫁走红,皮肤白皙新郎不撒手,网友:捡到宝了

梅子的小情绪
2026-01-10 15:48:31
男女干部戴头套开房后续:女主高清照片流出,男主六月新婚

男女干部戴头套开房后续:女主高清照片流出,男主六月新婚

没有偏旁的常庆
2025-12-25 06:58:51
民进党高雄提名人确定为赖瑞隆,国民党的柯志恩没有任何实力竞争

民进党高雄提名人确定为赖瑞隆,国民党的柯志恩没有任何实力竞争

总在茶余后
2026-01-14 23:10:35
曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

项鹏飞
2026-01-12 21:45:02
宣布独立,成立一个新的:高都丽共和国!

宣布独立,成立一个新的:高都丽共和国!

百态人间
2026-01-13 16:35:22
一场闹剧!邦本宜裕重签辽宁铁人,延边龙鼎成唯一“受害者”

一场闹剧!邦本宜裕重签辽宁铁人,延边龙鼎成唯一“受害者”

篮球看比赛
2026-01-15 11:40:51
绿营高官已到访大陆,赖清德转向?国台办回应,郑丽文或迎大机遇

绿营高官已到访大陆,赖清德转向?国台办回应,郑丽文或迎大机遇

荐史
2026-01-15 14:42:45
孩子聪不聪明,看手就知道,大脑聪明的人手会“有信号”

孩子聪不聪明,看手就知道,大脑聪明的人手会“有信号”

布谷妈妈
2026-01-15 19:49:56
一场3-1,让孔帕尼创造历史,缔造德甲新纪录,冠军恐无悬念

一场3-1,让孔帕尼创造历史,缔造德甲新纪录,冠军恐无悬念

足球狗说
2026-01-15 06:53:51
离过年不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

离过年不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

涵豆说娱
2026-01-14 16:26:28
2026-01-16 05:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6897文章数 546关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

艺术
健康
房产
游戏
公开课

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

任天堂股价暴跌!为何索尼未收影响?专家分析来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版