网易首页 > 网易号 > 正文 申请入驻

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工新基准

0
分享至

Video-TT团队 投稿
量子位 | 公众号 QbitAI

视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。

但有一个非常本质的问题始终萦绕着研究者的心头:这些模型是真的“理解”了视频,还是仅仅在进行一种高级的“模式匹配”?

为了解决上述问题,来自南洋理工大学S-Lab的研究者们提出了一个全新的、极具挑战性的基准测试——Video Thinking Test(简称Video-TT)

其核心目标简单而深刻:将“看”与“想”的能力分离,精准测量AI在视频内容上的真实理解和推理水平。

研究团队有三项关键发现:

(1)人类在视频理解的“准确率”和“鲁棒性”上远超SOTA级模型(50%),差距显著。

(2)开源模型在“鲁棒性”上远逊GPT-4o(SOTA模型之一)。

(3)GPT-4o的短板在于:对模糊或非常规内容识别能力弱;对多场景区分、定位、计算能力有困难;世界知识对应能力欠缺,无法理解意图、社会动态等深层信息。

Video-TT图灵测试集由南洋理工大学S-Lab科研团队联合独立研究员共同研发完成。主要作者包括南洋理工大学博士生张元瀚、董宇昊,二人的研究方向聚焦多模态模型;通讯作者为南洋理工大学助理教授刘子纬。

Video-TT的问题定位

人类的智慧核心在于其正确性(Correctness)鲁棒性(Robustness)

正确性意味着我们能准确地解读信息,而鲁棒性则保证了我们在面对信息干扰、歧义或不同表述时,依然能保持正确的判断。这两者结合,才构成了真正可靠的理解能力。

现有的视频理解基准测试(Benchmark)在衡量AI是否达到人类级智慧上存在着一些根本性的缺陷。它们往往无法区分模型是因为“没看清”而犯错(即关键视频帧采样不足),还是因为“没想明白”而出错(即缺乏真正的推理能力)。

这种混淆使得我们很难评估AI在视频理解上的真实水平。

在Video-TT出现之前,视频理解领域已有相应的评测标准,但这些标准普遍存在一定局限性,导致AI的真实能力无法被准确衡量。

问题一:长视频评测的“帧采样悖论”

近期,许多研究都聚焦于长视频理解。然而由于计算资源限制,模型无法处理视频的每一帧,只能“跳着看”(稀疏采样)。

这就带来一个问题:当模型答错时,我们无法确定是它能力不行,还是运气不好,恰好错过了包含答案的关键帧。

如下图所示,在一些长视频评测中(如VideoMME-Long),即便是强大的GPT-4o,其性能也可能因为采样帧数的限制而大幅下降。这种下降反映的更多是“采样策略”的失败,而非“理解能力”的不足。

问题二:短视频评测的“天花板幻觉”

与长视频相对,短视频评测(如VideoMME-Short)由于时长较短,模型可以几乎“看完”所有帧。在这种情况下,一些顶尖模型的表现接近甚至达到了人类水平(上图左侧),这容易给人一种“短视频理解问题已被基本解决”的错觉。

然而,事实远非如此。Video-TT的研究者们认为,即便在信息密集的短视频中,依然存在大量需要深度推理和复杂认知才能解决的挑战。简单地提升准确率分数,并不能证明AI拥有了与人类同等的智慧。

Video-TT的破局创新点在于,它选择了1000条全新的YouTube短视频(避免数据污染),并精心设计问题的标注,确保答案能在有限的、统一的80帧内找到。

这样一来,所有模型都在同一起跑线上“看”素材,评测的焦点便从“如何有效采样”转移到了“能否深刻理解”上,从而拨开迷雾,直击AI的“思考”核心。

突出“思考”能力的问题设计

要衡量“思考”,就必须提出能够激发“思考”的问题。Video-TT的设计原则是,一个复杂的问题并非由其类型决定(如“物体颜色”vs“情节理解”),而是由其背后的上下文、原因和场景决定。

研究团队从“认知科学”和“影视叙事学”中汲取灵感,构建了两个核心的复杂性维度:视觉复杂度和叙事复杂度。

维度一:视觉复杂度(Visual Complexity)

这部分关注的是视频画面的内在挑战,共包含四个方面:

  • 模糊与非常规内容(Unclear&Unusual Content)
  • 视频中是否存在干扰、模糊、遮挡,或者出现了与我们日常认知相悖的物体或现象?
  • 运动速度(Movement Speed)
  • 物体或镜头的移动是否过快,导致难以识别或追踪?
  • 时空布局(Spatial-temporal Arrangement)
  • 场景中物体的位置关系和互动是否复杂?是否存在大量的时空信息需要处理?
  • 视错觉(Illusions)
  • 视频是否利用了拍摄技巧或内容本身来制造错觉,挑战观众的直觉?

维度二:叙事复杂度(Narrative Complexity)

这部分关注的是视频作为一种“故事”的表达方式,其内在的逻辑和深度,同样包含四个方面:

  • 复杂情节(Complex Plot)
  • 故事线是否存在反转或意想不到的结局?
  • 叙事剪辑(Narrative Editing)
  • 是否使用了蒙太奇等复杂的剪辑手法来讲述故事,而非平铺直叙?
  • 技术性剪辑(Technical Editing)
  • 是否存在难以察觉的、与内容融为一体的特效或后期处理?
  • 世界知识(World Knowledge)
  • 理解视频是否需要依赖超越画面本身的世界常识、文化背景或社会规范?

例如,上图中的Q-8提问“视频中的女士在模仿什么行为?”,这需要观众拥有关于“特定活动”(被子弹击中后倒下)的世界知识才能正确回答。这些问题迫使模型超越简单的物体识别,进入真正的推理(Reasoning)层面。

AI思考的“鲁棒”检验

拥有了能让AI“思考”的难题还不够,我们还需要知道它的思考有多“鲁棒”(Robustness)。一个鲁棒的模型,不应该因为用户表述的方法稍有改变就给出截然不同的答案。

为此,Video-TT为每一个核心难题(Primary Question)都配备了四种“自然对抗性问题”(Natural Adversarial Questions),形成一套完整的测试体系。

这五种问题类型分别是:

  • 核心问题(Primary Open-ended Question)
  • 基于视觉和叙事复杂度设计的开放式的问题。
  • 复述问题(Rephrased Question)
  • 用不同的措辞问同一个问题(例如,“谁的头被拍了?”),模型的答案理应保持一致。
  • 正确诱导问题(Correctly-led Question)
  • 问题中包含正确的线索(例如,“他拍的是穿8号球衣的球员的头吗?”),这测试模型能否利用提示来确认事实。
  • 错误诱导问题(Wrongly-led Question)
  • 问题中包含错误的、误导性的线索(例如,“他拍的是穿9号球衣的球员的头吗?”),这对于模型来说是最大的考验,它必须足够“自信”地否定错误的诱导。
  • 多项选择问题(Multiple-choice Question)
  • 将正确和错误的诱导信息作为选项,考察模型在有明确选项时的辨别能力。

只有当模型能够准确回答核心问题(正确性),并且在面对各种“变体”提问时仍能保持判断一致(鲁棒性),我们才能说它达到了真正的、类人的理解水平。

评测结果与分析

经过如此严苛的设计,Video-TT的评测结果揭示了一个惊人的事实:目前的SOTA模型,在视频思维能力上,与人类相比仍有巨大鸿沟。

从数据中可以清晰地看到:

  • 人类遥遥领先
  • 人类测试者在正确性上达到84.3%,鲁棒性达到64.4%,展现了强大的理解与推理能力。
  • GPT-4o表现腰斩
  • 作为当前最强的多模态模型之一,GPT-4o的正确率仅为36.6%,不足人类的一半。其36.0%的鲁棒性得分也表明,它在面对干扰时同样表现不佳。
  • 开源模型仍需努力
  • 虽然部分开源模型在多选题上能与GPT-4o媲美,但在更考验真实理解能力的开放式问题上,差距显著。这说明,现有的许多其他基准测试可能因为侧重选择题而高估了模型的能力。

这一巨大的分数差距有力地证明,当前的AI在真正成为AGI的道路上,尤其是在视频理解这一核心领域,依然任重而道远。

对AI的错误类型进行分析。可以看出,“复杂情节”(Complex Plot)和“世界知识”(World Knowledge)是导致模型在高级认知任务中失败的主要原因。

Video-TT的作者们对GPT-4o的错误答案进行了深入的定性分析,发现了三大核心弱点:

弱点一:时空混淆——“理不清”时间与空间

在需要理解时空关系的任务中,模型错误率极高。

  • 物体计数
  • 模型很难精确追踪随时间变化的物体。例如,在一个视频中,墙上的相框先出现,然后移出画面,再重新出现。模型可以数清单帧内的相框数量,但无法正确计算整个过程中出现过的不同相框总数。
  • 序列定位
  • 当越多事件被排序到一条视频里,模型越分不清问题里的语义内容和视频的具体关联。比如,单一事件场景下,它可能知道“翻跟斗”这个动作、也知道怎么数数定位,但在多事件场景里,却无法正确数数定位到第二位“翻跟斗”的视频人物。

弱点二:常识缺失——“看不懂”言外之意

许多错误源于模型缺乏人类社会和文化中的常识(World Knowledge)。

  • 角色动机与情感
  • 模型可以描述一个人的表情是“平静的”,但无法结合上下文(例如,刚刚在比赛中获得银牌)理解这种“平静”背后其实是“失望”。人类知道“银牌得主通常比铜牌得主更失落”,因为他们离金牌仅一步之遥,而模型没有这种深层社会心理知识。

弱点三:复杂情节理解失败——“串不起”故事线

当视频叙事需要跨场景、跨线索进行逻辑推理时,模型往往会“掉线”。

  • 因果关系链条断裂
  • 在一条视频中,第一个场景是一个人在房屋附近打棒球,而第二个场景是展示房屋的押金被扣除。模型可以分别描述这两个场景,但无法将它们联系起来,推理出“因为棒球被打入屋里,破坏了房屋,所以押金被扣”这一核心的因果关系。它会错误地认为视频只是在展示“买棒球棒花了多少钱”。

Video-TT这一评测基准提示相关研究者,在看到AI技术进步的同时,也需留意其存在的不足,该领域的探索仍需不断深入。

论文链接:https://arxiv.org/abs/2507.15028
数据集:https://huggingface.co/datasets/lmms-lab/video-tt
项目主页:https://zhangyuanhan-ai.github.io/video-tt/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

观史搜寻着
2026-03-26 01:10:50
理解城市 | 开封文旅原来这样“火”

理解城市 | 开封文旅原来这样“火”

澎湃新闻
2026-03-26 12:58:34
美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

瞩望云霄
2026-03-25 18:20:59
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
出大事了,以色列新计划曝光,联合国急呼停火,第一个反抗者出现

出大事了,以色列新计划曝光,联合国急呼停火,第一个反抗者出现

李健政观察
2026-03-26 17:00:52
国际油价涨幅扩大 布伦特原油期货站上105美元/桶

国际油价涨幅扩大 布伦特原油期货站上105美元/桶

每日经济新闻
2026-03-26 15:11:37
国内航线燃油费4月5日上涨

国内航线燃油费4月5日上涨

21世纪经济报道
2026-03-26 19:23:14
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
省长刘捷在台州专题调研开发区高质量发展工作

省长刘捷在台州专题调研开发区高质量发展工作

台州发布
2026-03-26 20:57:28
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

流云随风去远方
2026-03-26 18:36:05
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

39健康网
2026-03-11 20:11:03
2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

2025年演唱会票房最高的10位歌手排行榜,这些歌手太赚钱了!

小椰的奶奶
2026-03-26 08:40:13
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
萨巴伦卡赢郑钦文后吃100美元汉堡 顶奢!鱼子酱+金箔碎她说超好吃

萨巴伦卡赢郑钦文后吃100美元汉堡 顶奢!鱼子酱+金箔碎她说超好吃

劲爆体坛
2026-03-26 08:10:23
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
2026-03-26 22:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
健康
时尚
旅游
公开课

教育要闻

骂人没有杀伤力?那不是白忙活吗?

转头就晕的耳石症,能开车上班吗?

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版