视频AI出现了"幻觉症"？SenseTime研究揭示长视频理解的隐秘缺陷|短视频|视频生成模型|sensetime

分享至

这是一个关于AI视频理解能力的令人震惊的发现。当我们以为AI已经能够完美理解视频内容时，SenseTime研究院的科学家们却发现了一个隐秘而重要的问题：AI在观看长视频时会产生一种特殊的"幻觉"现象。

这项由SenseTime研究院的陆皓、王嘉豪、张耀伦、王若晖、郑轩宇、唐叶鹏、林大华和卢乐伟等研究者完成的研究发表于2025年9月，论文标题为"ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding"。有兴趣深入了解的读者可以通过https://github.com/hlsv02/ELV-Halluc访问相关资源和代码。

要理解这个问题，我们可以把AI理解视频比作一个学生在看电视新闻。当新闻只有几十秒时，学生通常能准确记住发生了什么。但当新闻变成一个小时的节目，包含多个不同的新闻片段时，学生就容易把不同新闻中的信息混淆。比如，第一条新闻中主持人手里拿着一份文件，第三条新闻提到了星巴克，学生可能会错误地记成"主持人拿着星巴克杯子播报第一条新闻"。

这就是研究团队发现的"语义聚合幻觉"现象。AI虽然能正确识别视频中的每个画面内容，但在把这些信息组织成完整理解时，会错误地将属于不同事件的信息混合在一起。这种现象在短视频中很少出现，但在长视频中变得越来越明显和严重。

研究团队意识到这个问题的重要性后，创建了全球首个专门针对长视频幻觉现象的测试基准——ELV-Halluc。这个基准就像是给AI设计的一套"视力测试表"，专门检查AI在理解长视频时是否会出现信息混淆的问题。

一、揭开长视频理解的神秘面纱

当我们谈论AI理解视频时，大多数人想到的可能是那些能识别猫狗、判断动作的聪明程序。但实际情况要复杂得多，特别是当视频变得很长时。

以往的研究主要关注短视频，就像只在实验室的理想条件下测试汽车性能。研究者们发现，当AI处理几十秒的短视频时，表现相当不错。但现实世界中，我们经常需要处理的是几分钟甚至几小时的长视频，比如新闻广播、教学视频、会议记录等。

研究团队通过大量实验发现，现有的视频AI在处理长视频时存在三种主要的错误类型。第一种是"视觉错误"，就像近视眼看不清楚画面细节。第二种是"语言偏见错误"，AI过分依赖已有的知识模式，忽视了实际看到的内容。第三种就是他们新发现的"语义聚合幻觉"，这是最隐蔽也最危险的一种。

语义聚合幻觉的特殊之处在于，AI对每个画面的理解都是正确的，问题出现在将这些正确的信息组合成完整故事的过程中。这就像一个人记忆力很好，能准确记住每个细节，但在讲述整个故事时却把时间顺序和事件归属搞混了。

研究团队发现，这种现象随着视频复杂度的增加而加剧。当视频包含更多独立的事件段落时，AI就更容易出现信息混淆。而且，变化快速的视觉细节比较慢变化的整体内容更容易引发这种错误。

二、创建史上首个长视频"体检中心"

为了系统研究这个问题，研究团队需要一个专门的测试工具。他们创建的ELV-Halluc基准就像是专门为AI设计的综合体检中心。

这个体检中心的设计理念很巧妙。研究者们选择了一种特殊类型的视频——"事件接事件"视频。这种视频就像电视新闻节目，包含多个清晰分离但主题相关的段落。比如一档体育新闻可能包含篮球比赛、足球比赛、网球比赛等多个独立片段，每个片段都有完整的叙述，但整体属于同一个节目。

选择这种视频类型有多个优势。首先，每个事件段落都有明确的边界，便于精确测试。其次，这种结构最容易诱发语义聚合幻觉，因为不同事件中的元素可以重新组合形成看似合理但实际错误的描述。第三，事件数量可以作为视频复杂度的直观指标。

研究团队从YouTube收集了500个视频，然后进行了严格筛选。他们雇请专业标注人员，确保每个视频包含2到10个清晰可辨的事件段落，总时长平均超过11分钟。这些视频涵盖了体育、新闻、教育、生活等多个类别，确保测试的全面性。

为了确保标注质量，研究团队采用了一种半自动的标注流程。他们首先使用谷歌的Gemini 2.5 Flash模型生成初始的视频描述，然后由专业人员进行仔细检查和修正。这种方法既保证了效率，又确保了准确性。最终，他们获得了348个高质量的标注视频。

三、设计巧妙的"陷阱题"测试系统

有了测试素材后，研究团队需要设计巧妙的测试方法来检测语义聚合幻觉。他们的解决方案就像设计一套专门的"陷阱题"。

这套测试系统的核心思想是对比测试。对于每个视频片段的正确描述，研究团队会创造两个版本的错误描述。第一个版本叫"视频内幻觉"，是把当前片段中的某些元素替换成同一视频其他片段中出现的元素。第二个版本叫"视频外幻觉"，是把元素替换成完全不在这个视频中出现的内容。

这种设计的巧妙之处在于，如果AI被第一种错误描述误导，说明它确实出现了语义聚合幻觉——把正确的信息放到了错误的时间和地点。如果它被第二种错误描述误导，则说明它出现了其他类型的理解错误。通过比较这两种错误的发生率，研究者就能精确测量语义聚合幻觉的严重程度。

测试内容分为四个方面：视觉细节、物体识别、动作理解和描述性内容。视觉细节包括颜色、形状、文字等具体特征。物体识别涉及人物和物品的准确辨认。动作理解关注行为和运动的识别。描述性内容则涉及对情况的整体判断和结论。

研究团队发现，不同类型的内容出现语义聚合幻觉的频率不同。变化最快的视觉细节最容易出错，其次是动作，然后是物体，最不容易出错的是描述性内容。这符合直觉，因为快速变化的内容更容易在记忆和整合过程中发生错位。

四、震撼的发现：AI的"记忆混乱"有多严重

当研究团队用ELV-Halluc测试了16个主流的视频AI模型后，结果令人震惊。几乎所有的模型都存在不同程度的语义聚合幻觉问题，而且这个问题的严重程度超出了研究者的预期。

测试结果显示，当视频包含更多事件段落时，语义聚合幻觉现象会显著加重。这就像一个人同时处理的任务越多，越容易出现混淆。有趣的是，这种现象与视频的总长度没有直接关系，关键在于视频的复杂程度——即包含多少个独立的事件。

研究团队还发现了一个令人惊讶的现象：语义聚合幻觉的程度与模型的整体性能并不完全相关。也就是说，一个在整体视频理解测试中表现优异的AI模型，仍然可能在语义聚合方面存在严重问题。这说明这是一个独立的、需要专门关注的问题。

当研究者增加输入视频的帧数时，大多数模型的整体理解能力有所提升，但语义聚合幻觉反而加重了。这个现象很有趣：更多的信息帮助了整体理解，但也增加了信息混淆的风险。

不同大小的模型表现也有差异。较大的模型通常在整体理解上表现更好，但在语义聚合幻觉方面并没有显著改善。这表明简单地扩大模型规模并不能解决这个根本问题。

五、寻找解决方案的探索之路

发现问题后，研究团队开始探索可能的解决方案。他们从两个角度着手：改进模型的位置编码机制和使用偏好优化训练。

位置编码就像给视频中的每一帧贴上时间标签，帮助AI理解"什么时候发生了什么"。研究团队测试了多种位置编码策略，发现专门为视频设计的VideoRoPE编码方法能够显著减少语义聚合幻觉。这就像给AI配了一块更精确的手表，帮助它更好地记住事件的时间顺序。

第二个解决方案是使用直接偏好优化（DPO）训练方法。这种方法就像给AI进行专门的"纠错训练"。研究团队创建了8000对正确和错误的视频描述样本，然后训练AI明确区分哪些描述是正确的，哪些是混淆的。

训练过程分为三种设置：只使用视频内错误样本训练、只使用视频外错误样本训练，以及两种样本混合训练。结果显示，使用视频内错误样本训练效果最好，能够将语义聚合幻觉的发生率降低27.7%。这证明了针对性训练的重要性。

更令人兴奋的是，这种专门的训练不仅改善了语义聚合幻觉问题，还提升了模型在其他视频理解任务上的整体性能。这说明解决语义聚合幻觉不是单纯的修补，而是对模型理解能力的整体提升。

六、深入机制：AI大脑的"注意力重新分配"

为了理解训练为什么有效，研究团队深入分析了AI在训练前后的"注意力"变化。他们发现，经过专门训练的模型会显著减少对错误信息的关注，同时增加对相关正确信息的关注。

这个发现通过注意力可视化图清晰地展现出来。在训练前，当AI遇到混淆性信息时，它的"注意力"会被错误信息吸引。训练后，AI学会了忽略这些干扰信息，专注于真正相关的内容。这就像一个学生学会了在嘈杂环境中专心听课的技能。

这种注意力的重新分配不是简单的抑制，而是更智能的选择。AI学会了根据时间和上下文信息，判断哪些信息真正属于当前讨论的事件，哪些是来自其他时间段的干扰。

七、研究的局限性与未来展望

尽管这项研究取得了重要突破，但研究团队也诚实地指出了一些局限性。

首先，由于使用Gemini模型生成初始标注，可能对Gemini的测试结果产生了偏向性影响。不过，这种影响主要体现在对该模型性能的评估上，对其他模型和整体研究结论的影响有限。

其次，虽然"事件接事件"的视频结构有利于研究，但与现实世界中更加多样化的长视频相比，仍有一定局限性。真实世界的视频可能有更复杂的结构和更微妙的语义关系。

第三，由于标注成本较高，数据集的规模相对有限。扩大数据集规模可能会带来更全面的发现和更稳定的结论。

尽管存在这些局限性，这项研究为长视频理解领域开辟了一个全新的研究方向。它不仅识别了一个重要的技术问题，还提供了检测和改善这个问题的有效方法。

研究团队在论文中提到，语义聚合幻觉可能在其他多模态AI应用中也存在类似问题，比如长文档理解、多图像分析等。这为未来的研究提供了丰富的探索方向。

这项研究的意义超越了技术本身。随着AI越来越多地应用于需要处理长内容的场景——比如会议记录、教育视频分析、安防监控等——确保AI能够准确理解和表达复杂信息变得至关重要。语义聚合幻觉问题的解决，将直接提升这些应用的可靠性和实用性。

归根结底，这项研究告诉我们一个重要道理：AI技术的进步不仅需要追求更高的整体性能指标，还需要深入识别和解决特定的、隐蔽的问题。只有这样，我们才能构建真正可靠、值得信任的AI系统。SenseTime研究团队的这项工作为整个AI社区提供了宝贵的研究工具和解决思路，必将推动长视频理解技术向更加成熟和实用的方向发展。

Q&A

Q1：什么是语义聚合幻觉？它和普通的AI错误有什么区别？

A：语义聚合幻觉是AI在理解长视频时出现的一种特殊错误现象。与普通错误不同，AI能正确识别视频中的每个画面内容，但会错误地将属于不同时间段或事件的信息混合在一起。就像一个人看新闻时，把第一条新闻中的主持人和第三条新闻中提到的星巴克错误地组合成"主持人拿着星巴克杯子播报第一条新闻"。这种错误特别隐蔽，因为所有元素都是视频中真实存在的，只是时间和归属关系搞混了。

Q2：ELV-Halluc基准是如何检测语义聚合幻觉的？

A：ELV-Halluc采用巧妙的对比测试方法。对每个正确的视频描述，研究团队创建两个错误版本：一个是"视频内幻觉"（用同一视频其他片段的元素替换），另一个是"视频外幻觉"（用完全不存在的元素替换）。如果AI被第一种错误误导但能识别第二种错误，就说明出现了语义聚合幻觉。通过比较这两种错误的发生率，可以精确测量语义聚合幻觉的严重程度。

Q3：如何解决AI的语义聚合幻觉问题？

A：研究团队发现了两个有效方法。首先是改进位置编码机制，特别是使用VideoRoPE编码，就像给AI配备更精确的时间标签，帮助它记住"什么时候发生了什么"。其次是使用直接偏好优化训练，创建8000对正确和错误的样本来训练AI区分正确描述和混淆描述。这种针对性训练能将语义聚合幻觉发生率降低27.7%，同时提升模型整体性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.