港科大、北航和港中文联合出手,AI视频理解的"软肋"终于被找到了|时序|子集|序列|逻辑推理

分享至

这项由香港科技大学、北京航空航天大学Colab实验室及香港中文大学联合完成的研究，以预印本形式于2026年6月26日发布，论文编号为arXiv:2606.27828。研究团队构建了一个名为VIDEO-MME-LOGICAL的测评基准，专门用于诊断当前最先进的多模态大语言模型在视频时序逻辑推理方面的真实能力。

你有没有玩过"三杯藏球"这个游戏？一个球藏在三个杯子中的某一个下面，然后表演者开始快速交换杯子的位置，最后让你猜球在哪里。对于一个五岁的孩子来说，只要认真盯着看，往往都能猜对。但如果换成现在最聪明的AI视频系统，结果会怎样？

答案出乎意料地令人沮丧——这些号称能够"看懂"视频的AI系统，在这类需要跨帧追踪的任务上表现得相当糟糕。而这正是这篇研究想要揭示并解决的核心问题。

一、AI真的"看懂"视频了吗？

过去几年，各大科技公司和研究机构相继推出了能够处理视频内容的多模态大语言模型，这类系统可以简单理解为"既能看图又能看视频的聊天AI"。它们在各种标准测试中取得了令人印象深刻的成绩，引发了外界广泛的乐观情绪。

然而，研究团队发现，这其中存在一个被严重忽视的问题：现有的测评方式，往往把"能认出视频里有什么东西"和"能追踪事物随时间如何变化"混为一谈了。前者更像是给视频截图然后逐张辨认，后者则需要在脑海中持续更新一个动态的模型——就像你看一场棋局不仅要知道当前棋子在哪里，还要记住它们是怎么走到这里的。

研究团队把后一种能力称为"视频时序逻辑推理"。通俗地说，这种能力要求系统能够在脑子里维护一个随时间变化的"状态表"，随着视频播放不断更新它，并在最后根据这张表做出推断。这与单纯识别某一帧画面中的内容有着本质的区别。

现有的视频基准测试之所以无法很好地评估这种能力，是因为它们存在三个共同的缺陷。第一，测试题目通常按视频来源、场景类型或动作类别来分类，而不是按"需要什么样的逻辑操作"来分类，这导致即使模型答错了，研究者也很难判断究竟是哪种推理能力出了问题。第二，题目的难度往往和拍摄场景的复杂程度绑定在一起，而不是由推理链条的长短和复杂度来决定，这让"难度可控"几乎无从实现。第三，现有测试只看最终答案对不对，却从不追问模型是"真的推理出来的"还是"蒙对的"——就像一道数学题，只看答案是12，却从不要求展示计算过程。

正是为了填补这三个空白，VIDEO-MME-LOGICAL应运而生。

二、一套专门设计的"逻辑迷宫"

VIDEO-MME-LOGICAL的核心设计思路，是把视频时序逻辑推理拆解成五种基本操作，然后针对每种操作精心设计对应的测试任务。

第一种操作叫做状态追踪，可以用前面的"三杯藏球"来理解——球被藏在某个杯子下面，杯子不断交换位置，球的实际位置是不可见的，系统必须在脑海中持续追踪才能知道球最终在哪里。第二种操作叫做顺序计数，考验的是系统能否在整段视频中累积地记录某种事件发生了多少次，而不是只看某一帧。比如，"视频里一共出现了多少个三角形从上方落下？"这个问题就需要系统对整段视频进行逐帧扫描和累加。

第三种操作叫做时序排列，关注的是事件发生的先后顺序。比如一段视频里依次按下了哪些键盘按键，系统需要正确识别并记住这个序列。第四种操作叫做动态空间推断，要求系统从物体的运动轨迹中推断出几何关系，比如两个点各自走过的路径在空间上是否有交叉点，以及交叉了几次。第五种操作叫做结构组合，考验系统能否把从不同视角、不同时刻看到的局部信息拼合成一个完整的空间结构，比如根据第一人称穿越迷宫的视频，判断走过的路线是哪条。

这五种操作共被实例化为25个具体任务类别，涵盖了从"杯子换位追踪"到"3D迷宫路线匹配"、从"键盘按键序列识别"到"轨迹交叉点计数"等多种形式。每个任务类别又被进一步划分为简单、中等、困难三个难度级别，难度的提升同时体现在两个维度上：视频时长（即需要追踪的时间跨度）和推理步骤的数量。以杯子追踪任务为例，简单版本的视频时长约10秒、杯子交换4次，而困难版本时长延伸至20秒、交换次数增加到8次。

整个数据集的规模相当可观：研究团队总共生成了503,750段视频，其中500,000段用于训练，3,750段用于测试。更重要的是，这些视频全部由程序自动生成，而不是来自真实的网络视频。这种设计有一个关键优势：每一段视频的每一个细节都是完全可控的，答案是由程序直接计算出来的，不存在任何标注歧义——这就好比考试题目是直接从标准答案手册出的，不存在"阅卷老师理解不一致"的问题。

三、不止看答案，还要看"草稿纸"

VIDEO-MME-LOGICAL在设计上还有一个特别之处，那就是专门设立了一个叫做VIDEO-MME-LOGICAL-S的子集，共涵盖8个任务类别。这个子集的特殊之处在于，它不仅要求模型给出最终答案，还要求模型输出完整的中间推理过程，并且这个过程是可以被逐步核验的。

回到"三杯藏球"的比喻：普通测试只问"球最后在第几个杯子下"，而这个子集还要求模型报告"第一次交换是哪两个杯子、第二次是哪两个杯子……"，并把这些中间状态与程序记录的真实交换序列逐一对比。

这种设计的意义在于揭示一种令人不安的现象：一个模型可能给出了正确的最终答案，但它的推理过程完全是错的——就像一个学生在数学考试中写了正确的答案，但演算纸上全是胡乱涂写，碰巧猜对了结果。这种"答对但过程错"的情况，在只看最终答案的测试中是完全看不出来的。

四、最聪明的AI和人类之间，差距到底有多大？

研究团队对一批当前最先进的视频AI系统进行了全面测评，被测试的模型涵盖了三类：一类是直接输出答案的开源模型，包括Qwen2.5-VL、Qwen3-VL、InternVL3.5、LLaVA-Video和KimiVL等多个版本；一类是会先进行"思考"再输出答案的开源推理模型；一类是来自OpenAI和谷歌的顶级商业模型GPT-5.4和Gemini-3.1 Pro。作为参照，研究团队还邀请了人类标注员在完全相同的条件下回答同样的问题，报酬为每小时50美元。

结果相当触目惊心。人类在整体测试上的准确率高达95.9%，而表现最好的AI模型Gemini-3.1 Pro只达到了28.6%，GPT-5.4为22.7%。换句话说，人类做对了将近96道题，而最好的AI只做对了不到29道——两者之间的鸿沟接近70个百分点。

当难度从简单提升到困难时，所有模型的表现都出现了明显的滑坡。以GPT-5.4为例，在简单题上的准确率为31.7%，到困难题时跌至16.1%，降幅达到15.6个百分点。Gemini-3.1 Pro从33.1%降至20.6%，降幅相对温和一些，表现出更强的鲁棒性，但困难题上的成绩依然远远不及人类水平。

开源模型的情况则更为严峻。Qwen3-VL-8B的整体准确率仅为11.9%，多数开源模型的整体成绩都在个位数到十几的区间内徘徊。LLaVA-Video-7B更是几乎全军覆没，整体准确率接近于零。

还有一个有趣的发现：加入"思考"过程并不一定能让模型表现更好。KimiVL-16B从直接答题模式的2.9%提升到了思考模式的7.6%，但Qwen3-VL-8B却从11.9%下滑到了6.6%，Qwen3-VL-30B也从11.8%降至10.3%。这说明，光是"生成了一段推理文字"并不等于真正在追踪视觉证据——如果模型对视频的理解本身就有偏差，那么生成再长的思考链条也只是在错误的基础上越走越远。

五、中间过程的测试，揭露了更深的问题

在VIDEO-MME-LOGICAL-S的中间状态测试上，所有模型的表现都远比最终答案测试更糟糕。几乎所有开源模型的中间状态准确率都是0%——它们根本无法输出符合格式要求的中间推理过程，更遑论把每一步都做对。

GPT-5.4在这个子集上的整体准确率为17.4%，Gemini-3.1 Pro为10.8%，而表现最好的开源模型Qwen3-VL-30B在思考模式下只达到了3.6%。这意味着GPT-5.4的中间状态准确率是最强开源模型的将近5倍，是Gemini的1.6倍。

更耐人寻味的是最终答案和中间过程之间的不一致。在简单题的状态追踪任务上，Gemini-3.1 Pro的最终答案准确率（14.0%）高于GPT-5.4（8.8%）；但在对应的中间状态子集上，GPT-5.4的准确率（2.5%）却高于Gemini（8.0%），而在顺序计数的中间状态上，GPT-5.4更是以63.0%对35.0%大幅领先。这种"最终答案排名和中间过程排名不一致"的现象，直接印证了研究团队最初的担忧：仅凭最终答案来评判模型能力，很可能会得出错误的结论。

论文中有一个具体案例相当生动。在一个杯子追踪任务中，正确答案是"球在A号杯子下"，总共经历了5次杯子交换。GPT-5.4猜对了最终位置，但它报告的交换序列完全是错的，它把10次交换错误地压缩成了2次。Gemini-3.1 Pro则输出了一个格式完整的推理过程，追踪了每次交换，但它的最终答案是D，而正确答案是A。只有研究团队自己训练的模型正确地报告了全部5次交换的顺序，并给出了正确的最终位置C。

六、用50万条数据训练，能填平这条鸿沟吗？

既然识别出了这个问题，一个自然的想法是：用更多的训练数据来解决它。研究团队以Qwen3-VL-8B作为基础模型，从500K训练视频中分别抽取25K、125K、250K、375K和500K条数据进行监督微调实验，同时对比了"只训练最终答案"和"训练包含推理轨迹的完整过程"两种方式。

结果呈现出一个先升后平的典型曲线。随着训练数据量从25K增加到375K，模型的整体准确率从36.8%稳步提升到39.2%，达到了峰值。然而，当数据量继续增加到500K时，准确率反而微微下滑到37.7%。这表明在当前的训练方式下，仅凭扩大数据量能带来的提升是有上限的。

从简单题到困难题的迁移情况更令人深思。在简单题上，Ours-375K-Thinking达到了54.8%的准确率，说明模型确实学到了一些可迁移的时序逻辑推理模式。但在中等难度和困难题上，性能提升就不再稳定了，甚至出现了随着训练数据增加而略有下滑的情况——用25K数据训练的模型在中等难度和困难题上的表现，分别比用375K数据训练的模型高出了0.5和0.3个百分点。这意味着，仅靠简单难度的训练样本，模型还不能稳定地泛化到需要更长时序和更复杂推理链条的场景中去。

整体而言，39.2%的最高成绩与人类水平的95.9%之间，依然隔着将近57个百分点的距离。这说明单纯的数据规模扩增，并不是通往真正视频时序逻辑推理能力的充分路径。

说到底，这项研究做的事情，是把一个长期被忽视但至关重要的问题摆到了台面上：当我们说一个AI系统"能理解视频"的时候，我们究竟是在说它能认出画面里有什么，还是它真的能像人一样在脑子里追踪事物随时间的变化？这两件事看起来相似，实则天差地别。

人类之所以能轻松赢得"三杯藏球"游戏，是因为我们的大脑有一种叫做工作记忆的机制，能够在信息不再可见之后仍然持续维护它。当前的AI系统在这方面存在明显的短板，即使是GPT-5.4和Gemini-3.1 Pro这样的顶级模型，在需要长时间追踪的困难任务上也只能做对约两成题目。

这并不意味着AI系统毫无价值，而是说我们需要更诚实地评估它们真正擅长什么、真正不擅长什么。VIDEO-MME-LOGICAL的意义就在于，它提供了一把精确的尺子，让研究者能够清晰地定位当前模型的能力边界，从而为下一步的改进找到更有针对性的方向。

对于普通读者来说，这项研究也提示我们在使用AI视频分析工具时需要保持清醒：当任务需要跨越多个时间点追踪某件事物的状态变化时，AI的输出结果需要额外谨慎地核验。研究团队希望这个基准能够推动学术界开发出真正具备时序逻辑推理能力的新一代模型，而不是继续在"看起来很聪明"的表象下蒙混过关。有兴趣深入研究这个方向的读者，可以通过arXiv编号2606.27828查阅完整论文，项目页面也提供了数据集和评测代码。

Q&A

Q1：VIDEO-MME-LOGICAL测评基准和普通的视频理解测试有什么区别？

A：普通视频理解测试通常只看模型能否识别视频里的物体或事件，而VIDEO-MME-LOGICAL专门测试模型能否跨越多个时间帧追踪状态变化、累积计数事件、排列时序顺序等需要持续维护动态"状态表"的推理能力。此外它还会核验模型的中间推理步骤，而不仅仅看最终答案是否正确。

Q2：为什么给AI更多"思考时间"反而有时会让它表现更差？

A：生成推理链条本身并不等于在追踪视觉证据。如果模型对视频内容的感知本身就存在偏差，那么更长的思考过程只会在错误的基础上越走越远，就像一个看错题目的学生，演算再仔细也会得出错误答案。Qwen3-VL-8B从直接答题模式的11.9%下滑到思考模式的6.6%，正是这个道理。

Q3：用50万条训练数据微调后，AI在VIDEO-MME-LOGICAL上的表现能追上人类吗？

A：目前还差得很远。用375K条数据微调后表现最好的模型整体准确率约为39.2%，而人类水平是95.9%，两者之间仍有将近57个百分点的差距。实验还发现，继续增加数据量到500K时性能反而略有下滑，说明单纯扩大训练规模在当前方式下已经接近瓶颈，需要新的方法突破。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.