中科大与快手联合研究:AI视频评分系统终于学会"先思考再打分"了|序列|知名企业|快手(软体)

分享至

这项由中国科学技术大学与快手技术团队（Kling Team）联合开展的研究，于2026年5月以预印本形式公开发布，论文编号为arXiv:2605.05922。研究成果来自中科大、快手技术和中国科学院软件研究所的多位学者共同协作完成。

每当我们在网上刷视频时，背后总有一套隐形的"评分系统"在悄悄运作——它决定着哪些AI生成的视频质量更高，哪些更符合人类的审美和需求。这套系统的好坏，直接决定了未来AI视频生成技术能走多远。

近年来，AI生成视频的能力突飞猛进，像Sora、Kling、HunyuanVideo这样的工具已经能生成令人叹为观止的视频内容。但这背后有一个关键问题：AI怎么知道自己生成的视频好不好？它靠的就是"视频奖励模型"（Video Reward Model）——一种专门给AI视频质量打分的评判系统，就像体操比赛里的评委，用分数告诉选手哪里做得好、哪里需要改进。

然而，现有的这些"评委"都有各自的毛病。有的评委只会机械地对照规则打分，根本不理解选手动作背后的逻辑；有的评委虽然会边想边打分，但思维过程和打分动作搅和在一起，导致发挥极不稳定。这篇来自中科大和快手团队的研究，提出了一套名为DeScore的新方案：让评委先完整地思考，再冷静地打分，两件事彻底分开来做。

一、现有的"AI视频评委"到底有什么问题

要理解DeScore的价值，得先明白现有系统的困境。

目前给AI视频打分的系统主要分两大流派。第一类叫"判别式模型"，工作方式类似于一个只看结果不看过程的考官：它把视频丢给一个强大的多模态大语言模型（可以理解视频、文字的AI大脑）处理，然后直接从中提取特征、输出一个分数。VideoScore和VideoAlign就是这类系统的代表。这种方式的优点是训练稳定、分数直接；缺点是它从未真正"理解"视频好在哪里、差在哪里，完全靠归纳统计规律在打分。一旦遇到训练数据里没见过的新场景，就容易抓瞎，还会走捷径——依靠一些表面特征来打分，而不是真正理解内容。要让这类模型变好，唯一的办法就是喂给它海量数据，成本极高。

第二类叫"生成式模型"，工作方式更像一个会写评语的评委：它先生成一段分析文字（业内叫"思维链"，Chain-of-Thought，简称CoT），然后接着输出最终分数。这就好比一个评委在打分之前先写下"这个视频的人物动作和提示词高度吻合，背景细节丰富，但色彩风格稍显平淡..."，再根据这段分析给出7.5分。这种方式的好处是评委真正"想清楚了"再打分，泛化能力更强，遇到没见过的视频类型也能做出合理判断。

但这里有一个致命的设计缺陷：思考过程和最终打分被强行捆绑在同一条"生产线"上——评委必须一口气把分析文字和最终分数都"说出来"，中间不能停顿或分开处理。这带来了三个麻烦。其一，打分这件事本质上需要给出一个精确的数值，但在生成式系统里，分数只是一个普通的"词语"，训练时用的损失函数根本不理解数值大小的意义，把分数从5预测成4和从5预测成1受到的"惩罚"几乎一样，无法给出清晰的方向感。其二，当一个评委写了一大段分析之后才给出分数，如果最终分数打错了，系统根本无法判断是分析写得不对、还是最后的分数没跟上分析的逻辑，责任无法厘清。其三，这类系统在训练时大量依赖一种叫GRPO的强化学习方法，而这种方法本身就有一个已被理论证明的缺陷——生成的文字越长，训练过程中的梯度波动就越大，模型越难稳定收敛。

实验数据清晰地揭示了这个矛盾：加入思维链分析的生成式模型在各项测试中的表现确实优于不加分析的判别式模型，说明"先想清楚"这个步骤确实有价值；但生成式模型的训练曲线极不稳定，精度数值上蹿下跳，而判别式模型的训练过程则平滑如水。两种方法各有优势，各有致命短板。

这就逼出了一个核心问题：有没有一种方法，既能保留"先想清楚再打分"的泛化优势，又能拥有"直接输出数值"的稳定性？

二、DeScore的核心创意：给评委建一个独立的"打分台"

DeScore的解决思路其实可以用一个生动的比喻来理解。

设想一个专业的体育赛事评审团队。团队里有两个角色：一位是"分析师"，负责仔细观察运动员的每一个动作，写出详尽的技术分析报告；另一位是"打分员"，读完分析报告，再结合自己直接看到的比赛画面，最终按下评分器给出一个精确的数字。这两个角色各司其职，分析师写得越详细准确，打分员就越有依据，但打分员不会被分析师的文字完全"绑架"——他始终保留着自己直接判断的能力。

DeScore就是这个设计思路的工程化实现。整个系统由两个部分组成：一个是基于Qwen3-VL-8B这个强大多模态大语言模型搭建的"分析师"，它负责读取视频和文字提示，生成一段详尽的思维链分析；另一个是一个专门设计的"打分模块"，由一个可学习的查询令牌（[Reward] token，可以理解为一个特殊的"汇总指针"）和一个回归打分头（regression head，就是把特征转换成具体数值的小网络）组成。

具体流程是这样的：视频和用户的文字提示被一起送入大语言模型，模型先生成一段思维链分析文字，然后在所有内容的末尾附上那个特殊的[Reward]查询令牌。这个令牌会"环顾四周"，综合吸收视频信息、文字提示和刚才生成的全部分析内容，把它们浓缩成一个密集的语义摘要存在自己的隐藏状态里。最后，打分头读取这个摘要，直接输出一个连续的实数分数。

这个设计的精妙之处在于：思维链分析是"生成的"，经过了语言推理；而最终打分是"回归的"，走的是数值优化路径。两条路并行存在，各走各的，但在[Reward]令牌这个节点汇合。分析质量会影响打分质量，但打分并不依赖于把分数"说出来"这个动作本身。

三、训练的两个阶段：先热身，再精进

光有好的架构设计还不够，如何训练这个系统同样关键。研究团队设计了一套两阶段训练框架，两个阶段的目标和侧重点截然不同。

第一阶段叫"判别式冷启动"。这个阶段的任务好比是让新来的打分员先接受系统性培训，学会如何利用现有的分析报告给出合理分数。研究团队为此准备了一批视频对比数据，并用Qwen3-VL-8B预先生成了对应的思维链分析文字。然后，系统在这批数据上用一种叫BT损失（Bradley-Terry Loss）的训练方式进行学习——这种损失函数的逻辑是：对于一对视频（一好一差），模型给好视频的分数应该高于差视频的分数，差距越小就受到越大的惩罚。这个损失函数直接在数值层面施加推力，梯度方向非常清晰。

这一阶段有一个特别的设计：随机掩码机制。在训练过程中，系统会随机地把思维链分析文字"遮住"，让打分模块不得不仅凭视频和文字提示这些原始输入就给出分数。这么做的目的是防止打分模块过度依赖分析文字——就像培训打分员时偶尔拿走参考资料，强迫他们真正建立起对视频本身的直觉判断能力，而不是完全照抄分析师的报告。

研究团队通过可视化手段验证了这个机制的效果：观察打分模块的[Reward]令牌在做决策时最关注哪些词语。没有随机掩码时，令牌几乎把全部注意力都集中在思维链文字上，基本忽视了视频和文字提示本身；加入随机掩码后，令牌的注意力均匀分布在视频内容和分析文字上，真正实现了"双管齐下"。

第二阶段叫"双目标强化学习"。这个阶段好比是让经过基础培训的评审团队参加实战演练，进一步提升分析质量和打分准确性。这里使用了两个并行的优化目标。

第一个目标是用GRPO（一种强化学习方法）来提升思维链分析的质量。系统对同一个视频采样多条不同的分析路径，然后通过打分来奖励质量更高的分析。奖励信号由三部分构成：格式奖励（分析文字必须按照规定格式写，包含标签和JSON格式的子维度评分）、质量奖励（子维度评分与人工标注结果的吻合程度）和长度奖励（鼓励生成长度在2000个词以上的详尽分析，同时惩罚过于简短或冗长的分析）。

第二个目标是继续用BT损失来校准最终打分，防止出现"奖励漂移"——即系统为了写出更好的分析文字而牺牲了打分的准确性。两个目标加权相加，共同指导模型更新。GRPO负责让"分析师"越来越专业，BT损失负责让"打分员"始终保持准确，两者互不干扰，各司其职。

从数学上可以严格证明，GRPO的梯度方差会随着生成序列的长度线性增长（Ω(T)量级）。这意味着每当评委"多说一句话"，训练的不稳定性就会随之增加。DeScore通过把打分这个动作从长序列中剥离出来，让BT损失单独处理数值优化，彻底绕开了这个理论瓶颈。

四、数据是怎么来的

研究团队构建了一个专门的偏好数据集。首先，他们收集了大量真实世界的视频，并为每个视频生成文字描述；然后把这些描述当作"命令"，送给Gen-2、Pika 1.0、PixVerse、Dreamina、Luma、Gen-3和Kling这七个不同的AI视频生成系统，让它们各自生成视频。人工标注员随后对生成的视频对进行比较，从五个维度评判哪个更好：主体准确性（视频里的人/物是否符合描述）、动态准确性（动作和运动是否符合描述）、环境准确性（背景和场景是否符合描述）、风格准确性（艺术风格是否符合描述）和镜头运动准确性（摄像机运动是否符合描述）。最终收集到2.2万对训练数据和1469对测试数据。

思维链数据的生成则分两路进行。冷启动阶段直接用Qwen3-VL-8B生成分析文字，只要求分析的偏好方向与人工标注一致即可；强化学习阶段则动用了更强大的Gemini-2.5 Pro来生成高质量的细粒度分析，这些分析不仅包含最终偏好判断，还包含针对五个子维度的详细评分，过滤标准也更加严格。

五、实验结果：全面超越现有方案

研究团队在三个不同的测试集上评估了DeScore的表现，并与六个基线模型进行了比较。

在自家的测试集上，DeScore的偏好预测准确率达到0.734，明显优于最强的判别式基线VideoAlign（0.642）和最强的生成式基线VideoScore2（0.617）。

更重要的是泛化能力测试。GenAI测试集包含由早期AI视频系统生成的1900对视频，视频分辨率较低（约320×512像素），时长2到2.5秒；VideoGen-Bench测试集则包含2.65万对来自当前最先进系统的视频，分辨率更高（最高576×1024像素），时长4到6秒。这两个测试集里的视频类型、模型风格、画面质量都和训练数据大相径庭，是检验系统"举一反三"能力的真正考场。

在GenAI测试集上，DeScore的不含平局准确率达到0.765，显著优于各基线。在VideoGen-Bench上，DeScore达到0.768，比最强判别式基线高出4.6个百分点，比最强生成式基线高出18.6个百分点。这个差距在评分系统里已经相当显著。

训练效率方面同样令人印象深刻。对比实验显示，DeScore用仅仅约2.2万对训练数据就达到了其他模型用约10万对数据才能达到的性能水平——数据用量减少了76%，却在三个测试集上分别取得18%、24%和54%的性能提升。

消融研究（即逐步去掉某个设计组件来测量其贡献）也清晰地展示了每个设计决策的价值。去掉思维链分析，准确率从0.734直接掉到0.588；有思维链但去掉随机掩码，准确率是0.615；完整的冷启动阶段给出0.656的基础成绩，再经过双目标强化学习后达到最终的0.734。在强化学习阶段，如果只用GRPO不加BT损失校准，VideoGen-Bench上的准确率会从0.768下滑到0.648，正好印证了"奖励漂移"的危险；如果跳过冷启动直接进行双目标训练，性能也有所下降，但仍然达到0.741，说明整个框架的鲁棒性相当不错。

六、实际应用：让AI视频生成变得更好

理论上更准确的评分系统，在实践中到底有没有用？研究团队把DeScore集成到了两个真实的视频生成后训练框架中，在Wan-2.1-1.3B这个视频生成模型上进行了实验。

Longcat-GRPO是一种让视频生成模型通过强化学习自我改进的方案，Flow-DPO则是一种通过对比好坏样本来调整模型偏好的方案。两种方案都使用DeScore提供的奖励信号来指导Wan-2.1-1.3B的训练，并在VBench这个权威视频质量评测平台上进行评估。

结果显示，配合DeScore的后训练版本在主体一致性、背景一致性、美学质量、图像质量和动态程度五个维度上全面优于原始Wan-2.1-1.3B基础模型。具体数值上，使用Longcat-GRPO后，主体一致性从0.951提升至0.969，美学质量从0.547提升至0.645，动态程度从0.527提升至0.541；使用Flow-DPO后，各项指标也均有类似幅度的提升。

从定性的视频对比样例中可以看到，原始模型生成的视频经常出现主体错误、场景关系混乱、镜头运动与描述不符等问题，而经过DeScore引导后训练的版本则能更准确地按照文字描述生成内容，包括准确呈现空间关系、特定的镜头角度和复杂的动作序列。

说到底，DeScore做的事情看似简单，但解决的却是AI评分系统长期以来的一个根本性矛盾。

之前的系统要么聪明但不稳定（会思考但乱打分），要么稳定但不聪明（直接打分但不理解内容）。DeScore的"先思考再打分"范式，相当于给AI评委建立了一个规范的工作流程，让思考和打分各司其职，互不干扰，又彼此支撑。

这件事对普通用户意味着什么？更准确的AI视频评分系统，意味着AI生成视频工具的迭代速度会加快，生成结果会更符合人的真实期望。当你在某个AI工具里输入一段文字描述，希望生成一个特定的视频场景时，背后支撑AI不断改进的"教练"就是这类奖励模型。教练越准确，运动员进步越快。

当然，论文也坦诚地指出了DeScore目前的局限：它主要擅长评判视频是否忠实于文字提示，对于运动物理规律是否合理、画面是否有AI幻觉瑕疵等问题，现阶段的能力还相对有限。研究团队表示，下一步计划把这个解耦范式扩展到多维度视频质量评估，让评分系统覆盖更广泛的质量维度。

有兴趣深入了解这套系统技术细节的读者，可以在学术预印本平台arXiv上通过编号2605.05922查阅完整论文。

Q&A

Q1：DeScore的"先思考再打分"和普通AI打分系统有什么本质区别？

A：普通判别式系统直接从视频特征输出分数，不经过任何推理过程；普通生成式系统虽然会先写分析再给分，但分析和打分捆绑在同一个生成序列里，打分稳定性差。DeScore的核心区别在于用一个独立的数值回归模块来打分，分析文字和数值分数走两条完全不同的优化路径，分析过程提升理解能力，打分过程保证数值准确，互不干扰。

Q2：视频奖励模型在实际AI视频生成产品里是怎么被用到的？

A：视频奖励模型主要用在两个环节。一是训练阶段的后训练优化：让AI视频生成模型生成大量视频，用奖励模型给这些视频打分，再根据分数高低调整生成模型的参数，让它越来越会生成高质量视频。二是推理阶段的测试时选优：对同一段文字提示生成多个候选视频，用奖励模型选出最好的一个返回给用户。DeScore在这两个场景中都经过了验证。

Q3：随机掩码机制为什么能让DeScore对新类型视频的泛化能力变强？

A：随机掩码在训练时强制打分模块在没有思维链文字参考的情况下，仅凭视频和文字提示本身做出判断。这相当于让打分模块同时学会两种技能：利用分析报告打分，以及直接从原始内容打分。这样训练出来的模块对视频内容本身有更深的直接理解，遇到训练数据里没出现过的新型视频时，仍然能从第一原则出发判断质量，而不是完全依赖分析文字的"提示"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.