网易首页 > 网易号 > 正文 申请入驻

腾讯混元团队让机器自己评判作品质量

0
分享至


这项由中科院、腾讯混元、华中科技大学、北京大学、上海交通大学、清华大学和南京大学联合完成的研究发表于2024年11月,论文编号为arXiv:2511.21541v1,为视频生成领域带来了重要突破。当你打开手机上的AI视频生成应用,输入一段文字描述,几秒钟后就能看到一段栩栩如生的视频时,你可能不会想到这背后隐藏着一个巨大的技术难题。

想象一下这样的场景:你是一位艺术老师,面前坐着一个特别有天赋但也特别任性的学生。这个学生叫"AI视频生成器",它能根据你的描述画出令人惊叹的动态画面,但问题是,它经常会画出一些奇怪的东西——人物的手臂可能会突然变形,走路的动作看起来不太自然,或者整个画面的动作显得僵硬古怪。更棘手的是,每次它画完一幅作品,你都需要花费大量时间来评判作品的质量,这个过程既耗时又消耗巨大的计算资源。

传统的解决方案就像是给这个学生配备了一位外部评委。每当学生完成一件作品时,这位评委就需要仔细观看完整的最终成品,然后给出评分。但这种方式有三个致命问题:首先,学生必须完全完成整个创作过程才能得到反馈,这意味着如果方向错了,前面的努力都白费了;其次,评委需要处理完整的高清视频,这就像让一个人同时观看几十台电视,计算负担极其沉重;最后,由于反馈只在最后阶段给出,学生无法在创作过程中及时调整,导致基础的动作设计和结构规划问题得不到纠正。

研究团队提出了一个革命性的想法:为什么不让这个AI学生学会自我评判呢?就像让一个画家在绘画过程中就能感知到哪里画得好、哪里需要改进一样。他们开发了一套叫做"过程感知视频奖励模型"(PAVRM)的系统,以及相应的"过程奖励反馈学习"(PRFL)训练方法。

过程感知视频奖励模型的工作原理就像给那个AI学生配备了一套内在的艺术直觉。传统方法需要等到画作完全完成才能评判,而PAVRM却能在创作的任何阶段——无论是刚刚开始的草图状态,还是半完成的线稿阶段——都能准确判断作品的质量走向。这就像一个经验丰富的画家,即使只看到几笔线条,也能预感到最终作品会是什么样子。

这种能力的实现基于一个重要发现:研究团队发现,现有的视频生成模型本身就蕴含着丰富的质量判断信息。就像一个画家在作画过程中,大脑中存储的不仅仅是如何下笔的技巧,还有对作品质量的敏锐感知能力一样。视频生成模型在每一个创作步骤中都在处理着复杂的空间和时间信息,这些信息天然地包含了对动作合理性、结构准确性的判断依据。

研究团队通过巧妙的设计,将这些原本用于生成视频的内部特征重新组织起来,训练成了一个专门的质量评判系统。这个系统使用了一种叫做"查询注意力机制"的技术,就像给评委配备了一套特殊的观察工具,能够从复杂的创作过程中提取出最关键的质量指标信息。

更令人兴奋的是,这套系统不需要等到视频完全生成完毕才开始工作。在传统方法中,AI需要先完成整个视频创作,然后将结果转换成最终的像素格式,再交给评委判断。这个过程就像让学生先完成一整幅油画,然后拍照冲印出来给老师批改一样繁琐。而新方法能直接在创作的"内部语言"——也就是潜在空间中进行评判,这就像老师能够直接理解学生的创作思路,无需等到作品完全完成。

过程奖励反馈学习方法进一步革新了训练过程。传统训练就像只在期末考试时给学生反馈,而PRFL则像是提供了随时随地的指导。在训练过程中,系统会随机选择创作过程中的某个时间点,然后基于那个阶段的作品状态给出质量评分和改进建议。这种做法确保了AI学生能够在创作的每个阶段都得到指导,从最初的构图规划到最后的细节完善,都有相应的质量标准在指引着改进方向。

这种方法带来的改进是全方位的。研究团队通过大量实验发现,使用PRFL训练的视频生成模型在动态表现方面有了显著提升。在衡量视频动感程度的测试中,改进幅度高达56%。在人体结构准确性方面,提升幅度也达到了21.5%。这些数字背后代表的是视频质量的质的飞跃——人物的动作更加自然流畅,手臂、面部等容易出错的部位变形情况大大减少,整体的动作协调性也有了明显改善。

除了质量提升,效率改进同样令人印象深刻。新方法的训练速度比传统方法快了至少1.4倍,同时内存消耗也大大降低。这就像找到了一条更短更省油的路线,既能更快到达目的地,又能节省资源。对于需要大规模训练AI模型的研究机构和公司来说,这种效率提升具有重要的实用价值。

研究团队还进行了细致的分析,探索了训练过程中不同阶段的重要性。他们发现,创作过程的早期和中期阶段对于动作质量的形成最为关键,而后期阶段则主要影响结构细节的完善。这个发现就像揭示了绘画过程中的规律——构图和基本动作设计在前期确定,后期主要负责细节优化。基于这个理解,他们优化了训练策略,确保在关键阶段给予足够的注意力和指导。

为了验证方法的有效性,研究团队不仅进行了大量的自动化测试,还组织了人工评估。他们招募了专业的评估人员,对比了使用PRFL方法和传统方法生成的视频质量。结果显示,在与其他后训练方法的比较中,PRFL方法生成的视频获得了显著更高的人工评分。在与传统方法的对比测试中,PRFL的胜率达到了67.47%,相比之下,传统RGB反馈学习方法的胜率仅为59.33%。

这项研究的影响远不止技术层面的改进。对于普通用户来说,这意味着未来的AI视频生成工具将变得更加智能和实用。当你描述一个人在跳舞的场景时,生成的视频中人物的动作会更加协调自然;当你要求生成一个多人对话的场景时,人物的表情和肢体语言会更加符合情境。这些改进将使AI视频生成从一个有趣的技术演示,真正演变为实用的创作工具。

从更广阔的视角来看,这项研究代表了AI自我改进能力的一个重要突破。让AI学会自我评判和自我完善,这种思路不仅适用于视频生成,也为其他AI应用领域提供了有价值的启发。正如一个优秀的艺术家不仅要会创作,更要有敏锐的审美判断力一样,未来的AI系统也将越来越多地具备这种自我反思和自我改进的能力。

当然,这项技术目前还主要专注于动作质量的改进,对于视频的美学效果、语义理解等其他方面还有进一步发展的空间。研究团队也坦诚地指出了这些局限性,并提出了未来的改进方向。他们计划开发更全面的评价体系,涵盖美学、语义等多个维度,同时探索将这种自我评判机制扩展到其他类型的内容生成任务中。

说到底,这项研究最大的价值在于为AI内容生成领域开辟了一条新的发展路径。通过让AI学会自我评判,我们不再需要完全依赖外部的评价体系,而是可以让AI在创作过程中就具备质量意识。这种转变就像让一个学生从被动接受老师评分,变成能够主动自我反思和改进的自主学习者。这不仅提高了效率,更重要的是为AI系统的智能化发展提供了新的可能性。

对于那些对技术细节感兴趣的读者,可以通过论文编号arXiv:2511.21541v1查阅完整的研究报告,其中包含了更详细的实验数据、技术实现方案和对比分析结果。

Q&A

Q1:过程感知视频奖励模型PAVRM与传统视频评价方法有什么区别?

A:传统方法需要等视频完全生成并转换成像素格式才能评价,就像老师必须看到学生的完整作品才能打分。而PAVRM能在视频生成的任何阶段直接评判质量,就像经验丰富的画家看到几笔线条就能预判作品效果,无需等到完成就能给出指导。

Q2:过程奖励反馈学习PRFL如何提升视频生成质量?

A:PRFL在训练过程中随机选择生成过程的不同阶段进行质量评估和反馈,就像给学生提供随时随地的指导而不是只在期末考试时打分。这确保AI在创作的每个环节都能得到改进建议,从构图规划到细节完善都有质量标准指引,最终使动态表现提升56%,人体结构准确性提升21.5%。

Q3:这项技术对普通用户使用AI视频生成有什么影响?

A:这项技术将使AI视频生成工具变得更智能实用。未来当你描述跳舞场景时,人物动作会更协调自然;要求生成对话场景时,人物表情和肢体语言会更符合情境。同时训练效率提升1.4倍意味着更快的响应速度,让AI视频生成从技术演示真正变为实用创作工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东航昨夜一北京飞上海航班,落地后舱内现火情,官方通报:系旅客手机掉落座椅缝隙受挤压冒烟

东航昨夜一北京飞上海航班,落地后舱内现火情,官方通报:系旅客手机掉落座椅缝隙受挤压冒烟

纵相新闻
2026-03-26 01:52:05
20分惨败!CBA焦点1战,山东大破新疆男篮,巩晓彬苦笑:都输麻了

20分惨败!CBA焦点1战,山东大破新疆男篮,巩晓彬苦笑:都输麻了

话体坛
2026-03-25 22:16:29
中国第三任国家主席,墓碑上不留姓名,碑文仅有二十四个字!

中国第三任国家主席,墓碑上不留姓名,碑文仅有二十四个字!

年代回忆
2026-03-24 20:23:00
孤胆英雄:NBA历史上那些“单核”带队的终极神话

孤胆英雄:NBA历史上那些“单核”带队的终极神话

茅塞盾开本尊
2026-03-26 13:05:20
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
连续三天,重庆市委书记袁家军围绕这件事调研

连续三天,重庆市委书记袁家军围绕这件事调研

中国乡村振兴
2026-03-26 10:02:48
杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

杜锋发布会发飙,反问记者,球迷为陈家政担心:你可以离开球队了

南海浪花
2026-03-26 00:26:05
曝马英九完全不见他!萧旭岑:很多事长辈忘了、质疑能怎么办?

曝马英九完全不见他!萧旭岑:很多事长辈忘了、质疑能怎么办?

新时光点滴
2026-03-25 11:32:56
果然越不体面小生意往往闷声发大财!网友:一年不低于50万

果然越不体面小生意往往闷声发大财!网友:一年不低于50万

夜深爱杂谈
2026-03-23 20:05:31
杨瀚森9投9中+单手隔扣 20分9板5助触底反弹

杨瀚森9投9中+单手隔扣 20分9板5助触底反弹

体坛周报
2026-03-26 11:17:12
11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

万花筒体育球球
2026-03-25 17:39:15
向“新” 向“智” 向“绿”——重大工程项目一线观察

向“新” 向“智” 向“绿”——重大工程项目一线观察

新华社
2026-03-25 16:08:21
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
73年工人运动现分歧,巴枯宁质问马克思:无产阶级掌权后将统治谁

73年工人运动现分歧,巴枯宁质问马克思:无产阶级掌权后将统治谁

磊子讲史
2026-03-25 12:21:48
闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

侃神评故事
2026-03-21 19:15:03
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
2026-03-26 13:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7745文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
旅游
艺术
军事航空

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

2026年了,最好看的还是“这件针织”!

旅游要闻

人不算多风景极美 清明假期去这7座宝藏小城

艺术要闻

哪一座桥不是风景?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版