浙江大学团队发布UniVBench：首个统一视频基础模型评测基准|新论文|univbench

分享至

这项由浙江大学、字节跳动和浙江实验室联合开展的研究发表于2026年2月25日的arXiv预印本平台，论文编号为arXiv:2602.21835v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈论人工智能的发展时，视频理解和生成技术可以说是当下最激动人心的领域之一。就像一位全能艺术家既要能欣赏电影又要能拍摄电影一样，现在的AI系统也在朝着能够同时理解视频内容和生成视频内容的方向发展。不过，要评判这样一位"全能艺术家"的真实水平，我们需要一套全面而公正的考试体系。

传统的视频AI评测就像是让一位全才艺术家分别参加绘画考试、音乐考试和舞蹈考试，每个考试都有不同的评分标准，最后我们很难知道这位艺术家的综合实力到底如何。更麻烦的是，绘画考试可能用的是毕加索的作品做题目，音乐考试用的是贝多芬的乐曲，而舞蹈考试又用了芭蕾舞剧片段——这些素材可能在训练阶段就被AI"学"过了，就像学生提前知道了考试答案一样，考试结果自然不够准确。

浙江大学的研究团队敏锐地发现了这个问题。他们注意到，现有的视频AI评测基准存在三个根本性的局限性。首先是各自为政的评测方式，理解视频的AI和生成视频的AI用的是完全不同的评测标准，就像用测量身高的尺子去称体重一样不合理。其次是内容来源的问题，许多评测用的都是网上的视频片段，这些内容很可能在AI训练过程中就见过，评测结果的可信度大打折扣。最后是评测维度的不完整，现有的基准往往只关注某几个方面，比如只看画面质量不看故事连贯性，或者只看色彩搭配不看镜头运动，无法全面衡量AI的真实能力。

为了解决这些问题，研究团队开发了一个名为UniVBench的全新评测基准。这就像是为全能艺术家设计了一套完整的综合考试，不仅涵盖了绘画、音乐、舞蹈等各个艺术门类，还确保了考试内容的原创性和评分标准的一致性。

一、重新定义视频AI的能力边界

要理解UniVBench的创新之处，我们首先需要明白现在的视频AI到底在做什么。回到我们的艺术家比喻，传统的AI更像是专业的单项选手：有些专门"看画"（视频理解），能够准确描述一幅画里有什么内容、用了什么技法、表达了什么情感；有些专门"作画"（视频生成），能够根据描述创作出相应的画作。而新一代的统一视频基础模型则试图成为真正的全能艺术家，既能看懂也能创作。

但是，如何评判一位全能艺术家的水平呢？研究团队认为，需要从六个核心任务来考察：视频理解（就像艺术评论）、文本生成视频、参考图像生成视频、文本指令视频编辑、参考图像视频编辑，以及最具挑战性的视频重构任务。

这里的视频重构任务特别有意思，它就像是让艺术家先欣赏一幅画，然后用自己的话描述这幅画，最后再根据自己的描述重新画一遍。如果重新画出来的作品与原作高度相似，说明这位艺术家不仅理解能力强，创作能力也很强。这个任务巧妙地将理解和生成两个能力结合起来，成为检验AI综合实力的试金石。

更重要的是，研究团队为这套评测体系设定了八个主要维度和二十一个细分维度，就像是制定了一套详细的艺术评判标准。这些维度涵盖了视频的方方面面：从画面风格到主体对象，从动作表现到背景场景，从镜头运动到光影效果，从色彩搭配到空间关系。每一个维度都有具体的评判细则，确保评测的全面性和公正性。

二、构建无污染的评测环境

解决了评什么的问题，接下来就是用什么来评的问题。这就像是为艺术家准备考试题目，既要有足够的难度和区分度，又要确保考生之前没有见过这些题目。

研究团队采用了一个非常巧妙的方法：他们没有使用现成的网络视频，而是专门制作了全新的原创内容。整个制作过程就像是一部精心策划的纪录片拍摄。首先，十五位具有视频制作背景的专业人员接受了详细的培训，学习如何按照研究团队制定的八个维度标准来创作视频脚本。这些专家需要确保每个脚本都覆盖了所有评测维度，同时保持叙事的连贯性和逻辑性。

脚本完成后，团队使用顶级的商业视频生成接口（包括海螺、快影、Veo3等）来制作视频。但制作过程并不是一次性完成的，而是采用了严格的三重质量控制机制。就像电影制作中的多轮审核一样，每个视频都要经过自动化预筛选、专家组评审和质量专员终检三个环节。只有在所有环节都获得通过的视频才能进入最终的评测集。平均下来，每个视频需要经过2.3次生成尝试才能达到标准。

最终，研究团队构建了一个包含200个高质量视频的评测集，其中100个是单镜头视频，100个是多镜头视频（平均每个视频包含3.72个镜头）。这些视频不仅在技术层面达到了专业标准，更重要的是完全避免了版权问题和数据污染问题，为公平评测奠定了坚实基础。

除了视频本身，研究团队还为每个视频准备了详细的文字描述、多格式的编辑指令和参考图像。其中，参考图像库包含864张精心挑选的图片，涵盖了人物主体、动物主体、非生物主体等各种类型，以及现实主义、动画、艺术、科幻、服饰、材质等六大风格类别。这样的配置确保了评测任务的多样性和挑战性。

三、智能化评测系统的技术突破

有了好的考试内容，还需要一位公正而专业的考官。传统的视频评测往往依赖单一的数值指标，就像只用一把尺子来衡量艺术作品的价值一样，显然是不够的。研究团队开发了一个名为UniV-Eval的智能评测系统，它就像是一位经验丰富的艺术评论家，能够从多个角度深入分析作品的优劣。

这个智能评测系统的工作流程非常巧妙。当它拿到一个需要评测的视频时，首先会进行任务规划和内容分解。对于多镜头视频，系统会自动识别镜头切换点，将复杂的长视频分解为若干个独立的镜头单元。然后，它会根据不同的评测任务，将参考图像和编辑指令与相应的镜头进行匹配。这就像是一位细心的老师在批改作文时，会逐段逐句地进行分析，确保不遗漏任何重要细节。

接下来是最核心的镜头级别精细化评测。系统会对每个镜头进行九个主要类别的详细分析：主体对象、相对位置、动作表现、背景场景、色彩信息、光照信息、视频风格、氛围营造和镜头信息。每个主要类别又进一步细分为具体的子项目，总共形成21个细分维度的评测体系。

这种评测方式的优势在于它的可解释性和可追溯性。传统的评测方法可能只给出一个总分，比如"这个视频质量得分85分"，但无法告诉你具体哪里好哪里不好。而UniV-Eval会生成一份详细的"诊断报告"，明确指出视频在哪些方面表现出色，哪些方面需要改进。比如，它可能会指出"镜头运动流畅度优秀，但主体对象的一致性存在问题，在第3秒到第9.8秒之间出现了动作不协调的情况"。

为了确保评测结果的可靠性，研究团队还进行了大规模的人工验证实验。他们随机选择了10%的评测数据，邀请专业的人类评审员进行独立评分，然后与智能评测系统的结果进行对比。结果显示，系统的判断与人类专家的意见一致性达到了85%，这个数字充分证明了评测系统的专业性和准确性。

四、揭示当前AI视频技术的真实水平

当这套全新的评测基准应用到现有的主流视频AI模型时，结果既在意料之中又令人深思。研究团队测试了包括商业化产品（如GPT-5、Gemini 2.5 Pro、Seed 1.6等）和开源模型（如CogVideoX、CoDi-2、Omni-Video等）在内的多个主流系统。

测试结果就像是一场全能运动会，每个参赛选手都有自己的强项和弱项，但没有一个能在所有项目上都表现突出。在视频理解任务中，Gemini 2.5 Pro表现最为出色，平均得分达到54.1%，就像是一位经验丰富的电影评论家，能够准确理解视频的内容和意图。相比之下，统一模型Showo-2在这个任务上只得到了16.3%的分数，显示出目前的统一模型在理解能力上还有很大的提升空间。

在视频生成任务中，情况有所不同。Seedance-1.0-Pro凭借77.9%的高分成为最强的生成模型，就像是一位技艺精湛的导演，能够根据剧本创作出高质量的视频作品。但有趣的是，即使是这样的优秀模型，在某些维度上仍然存在明显的短板。

特别值得注意的是动作维度，这是所有模型的共同薄弱环节。无论是理解类任务还是生成类任务，动作维度的得分普遍偏低。这就像是让艺术家描述或创作动态场景时总是显得力不从心，说明当前的AI在处理复杂时序动态信息方面还面临着技术挑战。相比之下，生成模型在色彩、光照和视频风格等静态属性上表现更为出色，这些维度的得分明显高于动作维度。

最引人深思的是视频重构任务的结果。这个任务最能体现统一模型的真实水平，因为它需要模型首先准确理解视频内容，然后基于理解生成新的视频。测试结果显示，即使是表现最好的Wan2.1-VACE-14B模型也只达到了62.7%的得分。更重要的是，通过对比原始视频、文本生成视频和重构视频三者之间的差异，研究团队发现重构视频与原始视频的不一致性最为明显，这表明在理解到生成的信息传递过程中存在显著的损失。

五、技术挑战与未来发展方向

通过深入的案例分析，研究团队进一步揭示了当前视频AI技术面临的具体挑战。以一个典型的测试案例为例，原始视频展示的是两只动物走向镜头前方并向观众挥手的场景。当使用文本描述生成视频时，由于有准确的文字描述作为指导，大多数模型都能生成相对合理的结果。但在重构任务中，模型需要先自己理解视频内容，再基于自己的理解重新生成，结果显示几乎所有模型都无法准确捕捉到"两只动物走向镜头前方并挥手"这个关键动作序列。

另一个案例更加有趣。原始视频显示一只猫进入恐龙造型的宠物窝，而宠物窝的嘴巴在猫进入时会张开。这个细节看似简单，但对AI来说却是极大的挑战，因为它涉及到物体间的交互逻辑和因果关系。测试结果显示，大多数模型生成的视频都缺失了这个关键的交互细节，说明当前AI在理解和生成复杂时空关系方面还有很长的路要走。

研究团队还发现了一个有趣的现象：在参考图像生成视频的任务中，当视频涉及多个镜头切换时，模型往往难以保持参考对象的一致性。比如，第一个镜头中的人物形象可能与后续镜头中的同一人物出现明显差异，就像演员在电影中途突然换了脸一样。这个问题反映了当前技术在处理长时序一致性方面的局限性。

通过与传统评测指标的对比，研究团队还展示了新评测系统的优势。传统的BLEU分数主要关注文本层面的词汇重叠，在面对长度差异较大的视频描述时往往失去准确性。而基于大语言模型的评判方法虽然能提供一定的语义分析，但往往只给出整体性的评价，缺乏细粒度的诊断信息。相比之下，UniV-Eval能够提供可追溯的多维度分析，明确指出具体问题所在，为模型改进提供了清晰的指导方向。

六、对未来AI发展的深远影响

UniVBench的发布不仅仅是一个评测工具的诞生，更像是为整个AI视频技术领域树立了一座新的里程碑。它的意义就像是在一个没有统一度量衡的市场里引入了标准的尺子和秤，让不同的产品可以在同一个标准下进行公平比较。

从技术发展的角度来看，这套评测基准为研究人员提供了明确的努力方向。就像运动员有了明确的训练目标和评判标准，AI研究者现在也能更有针对性地改进自己的算法。特别是那些试图开发统一视频基础模型的团队，可以利用这套基准来诊断自己模型的具体问题，然后有的放矢地进行优化。

从产业应用的角度来看，UniVBench为视频AI技术的商业化提供了重要的质量保证工具。就像汽车行业有碰撞测试标准、电器行业有安全认证标准一样，视频AI行业现在也有了自己的"质检标准"。这将帮助用户更好地选择适合自己需求的AI产品，同时也推动整个行业向更高质量的方向发展。

更重要的是，这项研究揭示了当前技术发展的不均衡性。研究结果表明，尽管AI在某些方面（如静态画面生成、色彩搭配等）已经达到了相当高的水平，但在动态理解、时序一致性、复杂交互等方面还有很大的提升空间。这种不均衡性提醒我们，真正的AI视频理解和生成技术还需要更多的技术突破。

研究团队也坦诚地指出了当前工作的局限性。虽然200个高质量视频足以进行全面的评测，但对于训练大规模统一视频模型来说还远远不够。因此，他们计划在未来大幅扩展数据集的规模，不仅用于评测，更要用于训练更强大的统一模型。这就像是从建造一个精致的样品房发展到建造整个社区，需要更多的资源投入和时间积累。

此外，当前的评测主要集中在技术层面的指标，未来还需要加入更多关于实用性、创意性、伦理性等方面的评判标准。毕竟，一个真正优秀的视频AI不仅要技术过硬，还要能够创造有价值、有意义的内容。

说到底，UniVBench的出现标志着视频AI技术评测进入了一个新的时代。它不仅为当前技术发展提供了一面镜子，让我们看清现状，更为未来的技术突破指明了方向。就像GPS为旅行者提供准确的位置信息和最优路径一样，这套评测基准将帮助AI研究者更好地导航在技术发展的道路上。

随着越来越多的研究团队开始使用这套标准，我们有理由相信，视频AI技术将迎来更加快速和均衡的发展。也许在不久的将来，我们就能看到真正意义上的全能视频AI助手，它们不仅能够理解我们的视频内容，还能根据我们的需求创造出令人惊叹的视频作品。而所有这一切的起点，正是像UniVBench这样严谨而全面的评测基准的建立。

有兴趣深入了解这项开创性研究的读者，可以通过论文编号arXiv:2602.21835v1查询完整的技术细节，相关代码和数据集也已在GitHub上开源，为整个研究社区的发展贡献了宝贵的资源。

Q&A

Q1：UniVBench与现有视频评测基准有什么不同？

A：UniVBench最大的不同在于它是首个统一评测基准，能同时评估视频理解、生成、编辑和重构等六个核心任务。现有基准都是针对单一任务设计的，就像分别考绘画、音乐、舞蹈，而UniVBench是综合艺术考试。更重要的是，它使用完全原创的200个高质量视频，避免了数据污染问题，确保评测结果更加公正准确。

Q2：视频重构任务为什么这么重要？

A：视频重构任务是检验AI综合能力的试金石。它要求AI先理解视频内容，用文字描述出来，再根据自己的描述重新生成视频。如果重构视频与原视频高度相似，说明AI的理解和生成能力都很强。研究发现，即使是最好的模型在这个任务上也只能达到62.7%的准确率，表明现有AI在理解到生成的信息传递过程中存在显著损失。

Q3：普通用户如何利用UniVBench的研究成果？

A：虽然UniVBench主要是为AI研究者设计的专业工具，但它的研究成果对普通用户也有重要意义。通过这套基准的测试结果，用户可以更清楚地了解不同AI视频工具的真实能力和局限性，从而做出更明智的选择。比如，如果你主要需要视频理解功能，可以优先考虑在理解任务上得分较高的模型；如果需要生成功能，则选择生成任务表现更好的工具。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.