网易首页 > 网易号 > 正文 申请入驻

ICML 2024 Oral | Video-of-Thought:像人一样从感知到认知全面推理视频

0
分享至

最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。

论文标题: Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition 论文链接: https://openreview.net/pdf?id=fO31YAyNbI 项目链接: http://haofei.vip/VoT/

一、从感知到认知的飞跃

相比于理解和推理静态的图片,在视觉处理社区,推理视频的难度要复杂困难很多,因为视频天然地存在更具挑战的动态时序特性,以及存在更多冗余的视觉内容。过去的视频理解研究多集中于视频的浅层感知,如视频动作识别、动态识别和视频描述生成。然而,这些方法对复杂视频的深入理解和推理仍存在显著不足。相较于浅层的视频感知,复杂视频的推理不仅需要对视频的时空特性有复杂的理解,还需深刻把握像素背后的内在高阶常识。为了彻底解决这一问题,VoT应运而生。

对于人类而言,理解视频就像吃饭喝水一样简单。那么我们人类是如何进行视频理解推理的呢?我们不妨考虑以下一个案例。以下的这段视频展示了一个场景:一辆高速行驶的汽车与一辆红色油罐卡车在公路上相撞。对应的问题是:“这辆红色油罐卡车会发生什么?”

当人类拿到这个题目的视频,首先,我们会根据问题确定感兴趣的目标,即红色油罐卡车。然后,我们会仔细观看视频,跟踪目标对象在视频中的动作语义。接着,我们会进行一些深入和高层次的推理,可能会结合一些常识知识。最后,我们给出推理答案:“可能会着火甚至爆炸。”

二、双重能力:感知与认知的完美结合

从以上的人类的认知模式和模式汲取灵感,研究团队指出,要实现复杂视频推理,需要具备两个关键能力:像素理解的感知能力和语义理解的认知能力。并且最重要的是,视频推理可能不是一个瞬时一步到位的过程,而是一个由低级感知到高级认知的多跳过程。

感知能力:为了实现精确的内容感知,必须对视频运动进行细致的像素级理解。这个过程可能需要深入结合给定的视频内容,并且具备精细的内容定位。

然而,大多数现有视频理解方法局限于实例分析,缺乏精细的控制和准确的对象级识别或跟踪,更不用说深入的视频理解了。

认知能力:深入的推理需要认知能力,允许模型提供合理的解释甚至因果想象。这个层次需要结合一定的世界常识知识。例如理解「从高处跳下可能导致骨折」,或者「与油罐车相撞可能引发爆炸」。

三、全新推理框架:视频思维链的诞生

为了实现这一目标,研究团队提出了一个全新的推理框架——“视频思维链”。该思维链将复杂的视频推理问题分解为从底层视觉感知到上层常识认知的一系列子问题。

与此同时,为了协助实现上述的细粒度视频感知能力,作者还提出利用时空场景图(Spatial-Temporal Scene Graph, STSG)表征协助推理过程,帮助生成的细粒度感知中间结果,从而实现精细的时空特征理解。

并与视频多模态大模型相结合,最终提出了一个全新的视频MLLM, MotionEmpic。

实验结果表明,作者提出的全新推理框架可显著提升模型在各类视频QA上的性能,超越了当前所有传统视频MLLM以及CoT方法的表现。

四、视频思维链VoT推理框架

VoT推理框架一共包含5个步骤:

Step-1:任务定义与目标识别

首先,给定输入视频和问题,VoT会识别问题中涉及的所有可能目标。这个过程确保系统明确了解需要分析的对象和相关任务。

Step-2:目标追踪

接下来,VoT分析视频内容,追踪问题所涉及的目标行为轨迹,输出感知层面的时空场景图 (STSG)。生成的关于目标轨迹STSG将为下一步行为分析的感知证据。

Step-3:行为分析

在这一步中,VoT通过整合STSG中的目标跟踪结果,进一步提示模型考虑更多潜在相关的常识知识,使模型能够将视频像素观察与现实世界联系起来,实现对视频的更深入理解。

Step-4:排名机制回答问题

在深入理解了视频中目标行为之后,现在开始回答原始问题。首先,本系统将所有QA问题统一为多项题,即从提供的多个候选答案中选出最终答案。进一步,受人类解答多选题的模式启发,本系统还采用了排名机制来确定最终答案。具体来说,对于每个候选答案,VoT将提示模型根据常识知识评估其可能性(从1到10),并提供相应的理由。最终根据,排名高的候选则为最终回答。

Step-5:答案验证

鉴于复杂视频任务通常涉及复杂的问题和答案,并且整个推理过程包含了多个环节,因此核实上一步提供的答案至关重要。本系统的基本核验思路是,假设答案A是正确的,我们将从两个方面回顾性评估答案是否与输入问题和视频内容相矛盾:

  • 感知验证:检查像素定位信息是否与视频中从感知角度呈现的事实一致。

  • 认知验证:从认知角度提示模型,确定答案中固有的常识性知识是否与第三步推理中推断出的主要观察结果相矛盾。

最终,确保VoT能够输出最正确的结果。

VoT推理框架的五个步骤,从任务定义与目标识别,到最终的答案验证,全面提升了视频理解和推理的精确性和可靠性,为复杂视频任务提供了强有力的解决方案

五、实验验证

5.1 主实验比较

作者首先在多个复杂VideoQA的数据集上进行了测试。实验结果证明VoT在所有的测试集上获得了持续的强于SoTA基线模型的表现,甚至超越传统CoT的性能。

5.2 Zero-shot结果

接下来,作者比较了不同模型在zero-shot下的性能。值得注意的是,相比较与传统的CoT,VoT性能提升更大、更明显。并且,在两个复杂的视频问答任务上的增强效果比在相对简单的任务(例如,MSR-VTT和ActivityNet)上的增强更为明显。这主要是因为后者的数据集更倾向于感知推理(例如,描述视频中的内容),而不是认知推理(例如,解释、预见)。

5.3 推理能力详细分析

首先,作者进行了人类评估。如图7上表所示,使用VoT推理框架的MotionEpic取得了相当出色的结果,甚至可以与人类表现相媲美。进一步,作者总结了六种常见的错误案例,并分析六种最常见错误类别的差异。如图下部分所示,MotionEpic(使用VoT)显著降低了VideoLLaVA(使用CoT)的错误率,特别是在动作语义和常识理解方面。

最后,作者通过一个案例分析直观地展示了VoT的优越性。如图8所示,视频内容显示了“训导员带着小狗跨越各类障碍比赛”的复杂场景,而给定的问题是抽象且复杂,需要结合常识,而不能简单地通过视频本身的感知直接回答。实验结果发现,只有本系统给出了正确的答案。

具体地,在内容感知层面,VoT通过基于STSG的视频定位确保了准确且稳健的理解,防止了幻觉,即正确地解释了动物是一只狗,然后从常识推断场景涉及训练者正在训练狗。然后,在认知层面,它分析每个选项以确定最佳答案。通过进一步验证,结果与视频内容和事实常识理解一致。总体而言,通过问题分解,整个推理在每个步骤上大大提高了准确性,同时确保了一个可解释的过程决策理由。

作者还提供了更多的可视化分析:

来源:公众号【机器之心】

llustration From IconScout By Imamfathoni0

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁来追责?浙江医院惊天乱象!花高价挂专家号,等来一场致命误诊

谁来追责?浙江医院惊天乱象!花高价挂专家号,等来一场致命误诊

牛锅巴小钒
2026-06-03 18:48:02
X娃亲妈格莱姆斯:非主流怪异歌手,和马斯克分分合合,生了3个娃

X娃亲妈格莱姆斯:非主流怪异歌手,和马斯克分分合合,生了3个娃

照见古今
2026-06-02 18:17:06
“让人无语!”小区电瓶车扫码充电要过五关,关关都有广告,一不小心就被引导去充值……

“让人无语!”小区电瓶车扫码充电要过五关,关关都有广告,一不小心就被引导去充值……

都市快报橙柿互动
2026-06-03 16:48:38
既然菲方不稀罕中国援助,中方可以成全他们,毛宁打开天窗说亮话

既然菲方不稀罕中国援助,中方可以成全他们,毛宁打开天窗说亮话

羽逸地之光
2026-06-04 02:34:34
苗原:有德甲球队还在打王钰栋的主意,签约后去其他联赛也ok

苗原:有德甲球队还在打王钰栋的主意,签约后去其他联赛也ok

懂球帝
2026-06-03 23:32:54
专科女生考上北大研究生,评论区没人恭喜,全在教她“认清现实”

专科女生考上北大研究生,评论区没人恭喜,全在教她“认清现实”

教育人看世界
2026-06-03 22:02:22
为了证明自己没用AI写论文,这届大学生有多拼

为了证明自己没用AI写论文,这届大学生有多拼

极目新闻
2026-06-04 00:18:49
俄罗斯官媒中文帐号终于被禁!大V司马南是他的深度合作伙伴

俄罗斯官媒中文帐号终于被禁!大V司马南是他的深度合作伙伴

霹雳炮
2026-06-02 23:18:05
1993年对人民大会堂国宴厅进行改造,上海是如何节省上百万外汇

1993年对人民大会堂国宴厅进行改造,上海是如何节省上百万外汇

贱议你读史
2026-06-03 17:44:38
中俄蒙天然气合作谈崩?中方不再对蒙古妥协,普京访华也没用

中俄蒙天然气合作谈崩?中方不再对蒙古妥协,普京访华也没用

暗香暗香
2026-06-03 16:49:13
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
这4种嘴巴的女人,天生就是“真命人”,旺夫旺己旺三代

这4种嘴巴的女人,天生就是“真命人”,旺夫旺己旺三代

风月观主
2026-06-04 08:30:17
“第二个朝鲜”出现了?俄罗斯正在养虎为患,真正慌的是巴基斯坦

“第二个朝鲜”出现了?俄罗斯正在养虎为患,真正慌的是巴基斯坦

明天见灌装冰块
2026-06-04 02:19:16
乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

山河路口
2026-06-03 14:26:05
抗癌博主获张雪邀请将出国观赛,当事人:不想被过度包装,给张雪带来不好影响

抗癌博主获张雪邀请将出国观赛,当事人:不想被过度包装,给张雪带来不好影响

潇湘晨报
2026-06-03 16:33:17
英媒曝光俄绝密文件:若俄跟北约开战,普京先打中国的2个邻国

英媒曝光俄绝密文件:若俄跟北约开战,普京先打中国的2个邻国

而长终
2026-06-03 01:21:16
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
长不长寿,看心率就知道?医生:过50岁,心率别超这个数!别忽视

长不长寿,看心率就知道?医生:过50岁,心率别超这个数!别忽视

今日养生之道
2026-06-04 02:24:54
安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

米果说识
2026-05-31 16:45:27
泰王苏提达出席48岁庆生仪式,王后穿亮紫泰装好旺,玛哈却好疲倦

泰王苏提达出席48岁庆生仪式,王后穿亮紫泰装好旺,玛哈却好疲倦

TVB的四小花
2026-06-04 02:15:19
2026-06-04 09:24:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2402文章数 596关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

215票对208票 美众议院要求特朗普停止动武并撤军

头条要闻

215票对208票 美众议院要求特朗普停止动武并撤军

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
家居
教育
时尚
军事航空

旅游要闻

全国A级景区去年接待游客75.1亿人次

家居要闻

江畔轻奢 观云大宅

教育要闻

中外合作办学,有个怪事!

粗腿宽肩,正在成为中女审美新风向

军事要闻

特朗普:若有美军士兵战死 将考虑终止与同伊朗停火

无障碍浏览 进入关怀版