港中大与牛津等联合发现：AI生成视频骗过顶级检测模型|错误率

分享至

这项由香港中文大学的王佳琦、新加坡国立大学的吴维嘉、牛津大学的Kevin Qinghong Lin等研究团队在2025年12月发表的研究论文（论文编号arXiv:2512.13281v1）彻底揭示了一个令人震惊的现象：最先进的AI视频生成技术已经能够制作出连专业检测系统都无法识别的假视频，甚至连人类专家的判断准确率都大幅下降。

当我们打开社交媒体时，经常会看到各种令人放松的ASMR视频——那些轻柔的切菜声、温和的敲击声、舒缓的刷洗声音。这些视频原本是真人制作的，目的是让观众获得感官上的愉悦和放松。然而，研究团队选择了这个特殊的视频类型作为他们的测试对象，原因很简单：ASMR视频对真实感的要求极其严苛，就像一道精心调制的菜肴，任何一点不协调都会破坏整体的感受。

研究团队构建了一个名为"Video Reality Test"的全新测试平台，这个平台就像一个严格的考试系统，专门用来检验当今最强大的AI视频生成模型和检测模型之间的较量。他们精心挑选了149个高质量的真实ASMR视频作为标准样本，这些视频涵盖了从简单的切割动作到复杂的多步骤操作，从室内环境到户外场景，确保测试的全面性。

更有趣的是，研究团队设计了一种"同行评议"的测试方式，就像学术界的论文审查制度一样。在这个系统中，AI视频生成模型扮演"创作者"的角色，努力制作出能够欺骗检测系统的假视频；而AI视频理解模型则扮演"审查员"的角色，试图识别出哪些视频是人工生成的。这种对抗性的测试方式能够更真实地反映实际应用中可能遇到的挑战。

一、当前最强AI视频生成技术的惊人表现

研究结果显示，目前最先进的AI视频生成模型Veo3.1-Fast的表现令人震惊。这个由谷歌开发的模型制作的假视频，即使是最强大的检测系统Gemini 2.5-Pro也只能达到56%的准确识别率，这个数字几乎和随机猜测没有区别。换句话说，这些AI生成的视频已经足够逼真，连专门设计来识别假视频的系统都被完全蒙骗了。

相比之下，人类专家在同样的测试中表现要好得多，平均准确率能达到81.25%。这个结果看似令人欣慰，但实际上也暴露了一个严重问题：即使是训练有素的专家，在面对高质量AI生成内容时也会有近五分之一的判断错误。这意味着在日常生活中，普通人更容易被这些精心制作的假视频所欺骗。

研究团队测试了多种不同的AI视频生成模型，包括开源的Wan2.2系列、Opensora-V2、HunyuanVideo等，以及闭源的Sora2和Veo3.1。结果显示，虽然不同模型的性能有所差异，但总体趋势都指向同一个方向：AI生成的视频质量正在快速提升，而检测技术却跟不上这种进步的步伐。

特别值得注意的是，即使是那些开源的模型，如HunyuanVideo和Wan2.2-A14B，其生成的视频被检测为假的比例也仅分别为14.77%和16.10%，这意味着超过八成的生成视频都成功地"蒙混过关"了。这种现象表明，制作逼真假视频的技术门槛正在快速降低，不再是少数技术巨头的专利。

二、音频成为检测真假的关键线索

在这场真假较量中，音频信息发挥了意想不到的重要作用。研究团队发现，当检测系统同时分析视频的画面和声音时，识别假视频的准确率平均能提升5个百分点。这个发现相当于给检测系统装上了一双更敏锐的耳朵。

造成这种现象的原因很简单：目前的AI视频生成技术在制作声音方面还存在明显的短板。以Sora2为例，它生成的ASMR视频中经常出现不合时宜的人声，而真正的ASMR视频应该是连续的、沉浸式的环境音效。这就像一个演员在表演时突然说错了台词，立刻就暴露了破绽。

相比之下，Veo3.1-Fast在音频生成方面表现更好，它能够产生与动作更匹配的特定声音，比如真实的敲击声或摩擦声，而不会出现突兀的人声。但即使如此，当加入音频分析后，这些生成视频被识别为假的概率仍然会上升，从12.54%增加到15.05%。

这个发现为未来的检测技术指明了一个重要方向：多模态的分析方法，也就是同时考虑视觉和听觉信息，能够显著提高假视频的识别能力。这就像医生在诊断疾病时不仅要看症状，还要听心跳、测体温一样，综合信息总是比单一信息更可靠。

三、水印成为检测系统的"作弊"工具

研究中最令人意外的发现之一是关于水印的影响。许多AI生成视频都会自动添加制作方的水印，比如Sora2生成的视频会带有明显的"Sora"标识。研究团队发现，一些顶级的AI检测模型竟然严重依赖这些水印来做判断，而不是真正分析视频内容的质量。

这种现象就像考试时学生看到选择题的某个特征就直接选答案，而不去理解题目内容一样。当研究团队移除了Sora2视频中的水印后，那些原本表现优异的检测系统立刻"现出原形"。比如GPT-5和Gemini-2.5系列模型的准确率从95%以上骤降到50%左右，几乎回到了随机猜测的水平。

这个发现暴露了当前AI检测系统的一个致命弱点：它们过度依赖表面特征，而缺乏对内容本质的深入理解。这就像一个人只会通过看衣服品牌来判断一个人的身份，而无法通过观察言行举止来做出更准确的判断。更危险的是，未来的恶意使用者完全可以通过简单地移除或伪造水印来轻易绕过这些检测系统。

与此形成对比的是，GPT-4o系列模型在水印移除前后的表现相对稳定，这表明这些模型确实在尝试分析视频内容本身，而不是简单地寻找表面标识。这种差异提醒我们，在评估AI系统的真实能力时，不能仅仅看表面的测试成绩，还要深入了解它们的工作原理。

四、AI检测系统的"乐观偏见"问题

研究团队发现了AI检测系统的另一个有趣特征：这些系统普遍倾向于将视频判断为真实的，而不是假的。在测试中，大多数AI模型都表现出明显的"乐观偏见"，它们更愿意相信眼前的视频是真实的，而不是人工生成的。

这种现象可能源于AI模型的训练过程。由于互联网上真实视频的数量远远超过人工生成的视频，这些模型在学习过程中更多地接触到了真实内容，因此形成了一种"默认真实"的判断倾向。这就像一个人在一个诚实的社区生活久了，就会倾向于相信每个人都是诚实的一样。

在一些极端情况下，这种偏见表现得尤为明显。比如较弱的模型如Qwen2.5-VL-7B在面对高质量生成视频时，会将所有的假视频都误判为真实视频，准确率为零。即使是表现较好的模型，也经常出现将71%的视频（包括真实和生成的）都标记为真实的情况。

这种偏见在实际应用中可能带来严重后果。如果检测系统过于"信任"输入的内容，就可能让大量的虚假信息轻易通过审查，对社会造成负面影响。因此，未来的检测系统设计需要更加平衡，既不能过于严格导致误杀真实内容，也不能过于宽松让假内容大行其道。

五、不同视频类型带来的挑战差异

为了更全面地评估AI生成技术和检测技术的能力边界，研究团队将测试视频分为"简单"和"困难"两个级别。简单级别的视频通常时长较短（3-5秒），包含单一的动作（比如简单的切割），背景环境相对统一（比如暗色的室内环境），涉及的物体种类有限且质地统一。

困难级别的视频则完全不同，它们的时长可以超过20秒，包含复杂的多步骤操作（比如挤压、剥离、抽取等连续动作），背景环境多样化（从室内的厨房、车库到户外的森林、河流），同时涉及多种不同材质的物体，包括固体（肥皂、塑料、玩具）和液体（颜料、水、泥浆）。

测试结果显示，即使是最先进的AI生成模型，在处理复杂场景时也会暴露出更多破绽。困难级别视频的检测准确率普遍高于简单级别视频，这表明当前的AI技术在处理长时间、多元素、复杂交互的场景时仍然存在技术瓶颈。

这个发现具有重要的实践意义。它提示我们，在设计检测系统时，应该重点关注那些包含复杂操作和多样化元素的内容，因为这些场景更容易暴露AI生成内容的不自然之处。同时，对于内容创作者和监管部门来说，这也提供了一个识别可疑内容的实用指南。

六、人类专家与AI系统的能力对比

在这场真假识别的较量中，人类专家展现出了相对于AI系统的独特优势。研究团队邀请了经验丰富的专家参与测试，结果显示人类的平均准确率达到89.11%，远高于AI系统的76.27%。这个差距虽然不算巨大，但在实际应用中却可能带来截然不同的结果。

人类专家的优势主要体现在对细微不协调的敏感性上。他们能够注意到AI生成视频中那些微妙的物理不一致性，比如光影效果的不自然、物体运动轨迹的异常、材质表现的失真等。这些细节对于训练有素的专业人士来说可能很明显，但对于AI系统却可能是盲区。

然而，人类专家的表现也并非完美无缺。18.75%的错误率意味着即使是专业人士也会被高质量的AI生成内容所欺骗。更重要的是，在实际应用场景中，我们不可能为每个视频都安排专家进行人工审核，这在成本和效率上都是不现实的。

有趣的是，研究还发现了一个"偏好比较"现象：当给检测者同时展示一个真实视频和一个生成视频，让他们选择哪个是真实的时，无论是AI系统还是人类专家的准确率都会显著提升。这就像在多选题考试中，当选项相互对比时，正确答案往往更容易识别。这个发现为未来的检测系统设计提供了一个有价值的思路。

七、技术发展带来的社会影响思考

这项研究的结果引发了人们对技术发展方向的深度思考。一方面，AI视频生成技术的快速进步为内容创作、教育培训、娱乐产业等领域带来了巨大的机遇。创作者可以用更低的成本制作高质量的视频内容，教育工作者可以创建更生动的教学材料，而娱乐公司则可以探索全新的内容形式。

另一方面，当生成技术的发展速度远超检测技术时，虚假信息传播的风险也在急剧增加。如果恶意使用者利用这些技术制作误导性内容，而现有的检测系统又无法有效识别，那么整个信息生态系统的可信度都可能受到冲击。

研究团队特别强调了ASMR视频的特殊性：这类内容对感官真实性的要求极高，任何不协调都会破坏观看体验。然而，正是这种高标准的内容类型现在也能被AI技术较好地模拟，这说明技术的进步已经达到了一个新的里程碑。

更深层的问题在于，当我们无法轻易区分真实和虚拟内容时，我们对信息的信任基础可能会发生根本性改变。这不仅仅是技术问题，更是一个社会问题：如何在享受技术进步带来的便利的同时，保持对信息真实性的基本判断能力。

八、未来发展的技术路径

基于这些发现，研究团队为未来的技术发展指出了几个重要方向。首先是多模态检测技术的重要性：单纯依靠视觉信息已经不足以可靠地识别AI生成内容，必须综合考虑音频、时序一致性、物理合理性等多个维度的信息。

其次是检测系统的深度理解能力。当前很多系统过度依赖表面特征（如水印）进行判断，这种方法虽然在特定情况下有效，但缺乏泛化能力。未来的检测系统需要具备更深层的内容理解能力，能够分析视频的物理合理性、时空一致性、以及人物行为的自然性。

第三个方向是对抗性训练的完善。就像这项研究中设计的"同行评议"系统一样，让生成模型和检测模型在对抗中共同进化，可能是提升双方能力的有效途径。这种方法已经在其他AI领域证明了其有效性，在视频真实性检测领域同样具有巨大潜力。

最后，研究强调了建立标准化评估体系的必要性。目前缺乏统一的评估标准，不同研究使用不同的数据集和评估方法，难以进行横向比较。建立像Video Reality Test这样的标准化平台，有助于整个领域的健康发展。

研究团队也坦诚地指出了当前工作的局限性：他们主要关注ASMR视频这一特定类型，未来需要扩展到更广泛的视频类型和更大规模的数据集。同时，随着技术的快速发展，这种测试平台也需要持续更新，以跟上最新的技术进步。

说到底，这项由香港中文大学、新加坡国立大学、牛津大学等知名学府联合开展的研究，为我们揭示了人工智能技术发展的一个重要节点。我们正处在一个技术能力快速提升的时代，AI生成的视频内容已经能够在很大程度上欺骗现有的检测系统，甚至连专业人士也会被误导。这既是技术进步的体现，也是新挑战的开始。

归根结底，这不仅仅是一个技术竞赛的问题，更关系到我们如何在数字时代保持对信息的准确判断。当技术让虚假和真实的边界变得模糊时，我们需要的不仅是更好的检测工具，还需要更强的媒体素养和批判性思维。对于普通人来说，了解这些技术的能力和局限性，培养对可疑内容的敏感性，将变得越来越重要。

未来的发展方向需要平衡创新和责任，在推动技术进步的同时，也要确保这些强大的工具不会被恶意使用。这需要技术开发者、监管部门、学术机构和普通用户的共同努力，建立一个既能享受技术便利又能保持信息可信度的数字环境。有兴趣深入了解这项研究技术细节的读者，可以通过论文编号arXiv:2512.13281v1查询完整的学术论文。

Q&A

Q1：Video Reality Test是什么平台？

A：Video Reality Test是由香港中文大学等研究机构开发的AI视频真假检测测试平台，专门用来测试AI生成视频和检测系统的能力。它使用149个精选的真实ASMR视频作为标准，让AI视频生成模型扮演"创作者"制作假视频，AI检测模型扮演"审查员"识别真假，通过这种对抗方式评估双方的技术水平。

Q2：为什么连最先进的AI检测系统都识别不出假视频？

A：主要有三个原因：首先，AI视频生成技术发展太快，最强的Veo3.1-Fast生成的视频只有12.54%被识别为假；其次，很多检测系统过度依赖水印等表面特征而非内容分析，一旦移除水印准确率就从95%跌到50%；最后，这些系统存在"乐观偏见"，倾向于将视频判断为真实的而非假的。

Q3：普通人如何识别AI生成的ASMR视频？

A：可以重点关注几个方面：音频质量是关键线索，AI生成的视频经常出现不协调的人声或不自然的音效；注意观察复杂场景，包含多步骤操作和不同材质物体的视频更容易暴露AI生成的破绽；培养对光影效果、物体运动轨迹、材质表现等细节的敏感性。不过研究显示即使专家也有近20%的错误率，所以保持谨慎态度很重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.