TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理|偏误|因果关系

分享至

近日，中山大学人机物智能融合实验室（HCP-Lab）团队的论文Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering（基于跨模态因果关系发现的事件级问答推理）被人工智能领域的国际顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）接收。

论文链接： https://arxiv.org/abs/2207.12647 代码链接： https://github.com/HCPLab-SYSU/CMCIR 因果驱动的视觉-语言推理开源框架Causal-VLReasoning https://github.com/HCPLab-SYSU/Causal-VLReasoning

一、研究动机

首先，现有的问答方法通常关注相对简单的事件，比如电影、TV-show或者是合成视频，在这些视频类型中，时域理解和因果发现可能并不需要表现得很好。但是，这些方法却忽略了更复杂并且更具挑战性的事件，这些事件需要深入的因果、时空动态和语言关系的理解。

如图1所示，给定一个视频和一个相关问题，对于人类来说，一个典型的推理过程是先记住每个视频帧出现的相关目标和它们之间的交互关系（比如，车在路上行驶、人骑摩托车，穿过马路），然后根据这些记忆的视频内容推断出对应的答案。

然而，图1中的事件级反事实视觉问答任务需要得到特定假设条件下给定视频没有发生的事件对应的结果（比如，当人没有骑摩托车穿过马路时）。如果我们仅仅简单地将这些相关的视觉内容关联起来，而忽略其中隐含的时空和因果关系，我们可能得不到正确的推理结果。为了准确地在反事实条件下推理得到设想事件的答案，我们需要模型同时拥有层次化的关系推理能力和充分挖掘视觉语言内容包含的因果、逻辑和时空动态结构能力。

图2：示例：为何缺乏因果推理的跨模态问答推理模型会学习到浅层关联？（a）训练集中包含视觉和语言偏误， person和motorbike两个概念出现频次很高，（b）结构因果图模型（structured causal model）展示了混淆因子（confounders）是如何给事件级问答推理任务带来浅层关联（spurious correlation）的，绿色路径表示了无偏误的问答推理过程（包含真正的因果关系），红色路径表示混淆因子导致的有偏误问答推理过程，（c）当在测试集给一些vehicle和accident高度相关的样本时，模型可能不会利用真正的问题语义和显著的视觉线索来推理出正确答案。

其次，现有的跨模态问答推理方法通常捕捉的是混淆因子（confounders）带来的浅层（spurious）的语言或者视觉关联，而不是真正的因果结构和因果驱动的跨模态表征，这会导致不鲁棒且不可信赖的推理过程，无法捕捉视频中跨事件的时间性、因果性和动态性，如图2所示。

图灵奖得主 Judea Pearl 提出因果学习的三个层次（即关联，干预和反事实)，并指出现有基于深度学习的大数据模型倾向于基于关联性去刻画数据背后的信息，学到的只是低层次的关联关系，这种建模方式难以得到数据背后的因果关系，其可解释性和鲁棒性在复杂应用场景下无法得到保证。

因此，本工作关注的重点是：

1）如何设计有效的跨模态因果干预方法，对视觉和语言样本的共通推理路径进行聚类、归纳，来缩小视觉和语言模态的数据偏误？

2）如何设计事件级因果发现方法，在时空层面挖掘复杂事件的潜在因果逻辑链条和关系变量，并建立基于多层因果推理结构的跨模态因果关系？

二、研究方法

为了实现上述两个目标，我们提出了一个跨模态因果关系推理的框架（CMCIR）。具体而言，我们基于因果关系图对问答推理过程进行了建模，如图3所示，并引入了一系列因果干预操作，来发现视觉和语言模态之间的潜在因果结构。

我们的跨模态因果关系推理框架（CMCIR）包括三个模块：

i）因果感知的视觉-语言推理（CVLR）模块，通过因果前门和因果后门干预的协同来减弱视觉和语言的虚假相关性；

ii）时空Transformer（STT）模块，用于捕捉视觉和语言语义之间的细粒度交互；

iii）视觉-语言特征融合（VLFF）模块，自适应地学习全局语义感知的视觉-语言表征。

我们在四个事件级问答推理数据集SUTD-TrafficQA, TGIF-QA, MSVD-QA, 和MSRVTT-QA上进行了的大量实验，证明了我们的CMCIR在发现视觉-语言因果结构和实现鲁棒问答推理方面的优越性。

该工作的主要贡献是：

该工作首次在事件级问答推理任务中实现了跨模态因果结构发现。提出了一种因果驱动的事件级视觉问答框架CMCIR，通过对视觉和语言模态的因果干预，来发现真实的因果结构，并实现鲁棒的的事件级问答推理。
提出了一个由语言语义关系引导的语言后门因果干预模块，以减弱语言偏误并挖掘语言模态内部的因果关系。为了减弱视觉的虚假相关性，我们提出了一个局部-全局因果注意力模块（LGCAM），通过前门因果干预来聚合局部和全局的视觉表示。
构建了一个时空Transformer模块（STT），用于建模视觉和语言知识之间的多模态交互关系，挖掘语义、空间和时间表征之间的细粒度交互关系。

图3：所提出的视觉-语言因果干预的因果结构图。绿色路径表示无偏的视觉问答，即真实的因果效应。红色路径显示由混淆因子引起的有偏视觉问答，也被称为后门路径。图的底部部分通过视觉-语言因果干预对一个真实的VideoQA样本进行直观解释。三、因果感知的视觉-语言推理（CVLR）模块

对于事件级视觉问答, 我们采用 Pearl 的结构因果图 (SCM) 来建模视频-语言对和答案之间的因果关系, 如图 3 所示。节点表示变量, 边表示因果关联。我们希望能够训练一个视频问答模型来学习真正的因果关系：模型应该基于视频特征和问题特征来推理得到答案 , 而不是利用由混淆因子 , 和带来的浅层关联（例如, 过分利用视觉和语言概念的共生关系）。在SCM模型中, 一个末干预的预测模型可以用贝叶斯公式表示:

然而, 上述目标不仅能学到主要的因果关系 , 还会学习到来自末被阻断的后门路径带来的浅层关联。我们将对的干预表示为 , 该操作断开了的连接从而阻断了后门路径。通过这种方式, 模型可以学习到真正的因果关系。事实上, 计算有两种方式, 分别是后门干预和前门干预。后门干预在混淆因子可以观测时有效。然而, 在事件级视觉问答任务上, 视觉和语言模态的混淆因子并不总是可观测的。因此, 本论文基于视觉-语言模态的特点, 同时采用后门因果干预和前门因果干预方法来挖掘视觉-语言跨模态因果结构。

3.1 语言后门因果干预

为了减少混淆因子带来的数据偏误并挖掘语言模态背后的因果结构, 我们设计了一种基于语言层次化关系结构的后门调整策略来近似混淆因子分布。隐含的混淆因子集合可以由层次化问题组合近似得到。如图3(b)所示, 如果将后门路径阻断, 可以使得有公平的机会将因果相关的因素考虑进来。基于后门干预的分布可以表示为:

为了计算上述公式, 我们将混淆因子集合近似为 verb 为中心的关联字典集合

先验概率可以基于数据库统计计算得到:

其中表示其中的一个关联字典集, 表示中的样本数目, 表示短语出现的次数。由于是由 softmax 计算得到的, 我们可以采用 Normalized Weighted Geometric Mean (NWGM) 方法来近似:

3.2 视觉前门因果干预

后门干预需要我们提前知道混淆因子。然而, 在视觉模态, 数据偏误往往十分复杂, 导致我们很难知道并区分不同的混淆因子。现有的方法通常将混淆因子定义为视觉特征的平均, 事实上, 由于复杂异质时空数据本身的特点, 平均特征不能正确地表示特定的混淆因子。当我们不能显式地表示混淆因子时, 前门干预提供了一种可行的方式来计算。

如图 3 (c) 所示, 为了实现前门干预, 我们需要在和之间添加一个额外的中间特征 , 从而构建前门路径来传输知识。对于视觉-语言问答任务, 一个基于注意力的模型能够基于问题从视频中选取一些区域来预测答案 , 其中表示从选取的知识。然后, 答案预测器可以由两部分组成: 一个特征提取器和一个答案预测器。因此, 干预概率可以表示为:

为了在深度学习框架实现视觉前门干预, 我们将参数化为网络 :

可以看出, 和都可以被采样然后输入到网络来实现然后, 将所有样本都输入到前向网络代价是高昂的, 为此, 我们采用 Normalized Weighted Geometric Mean (NWGM) 方法来近似公式:

其中表示和的估计, 和表示网络映射函数。

事实上, 和都可以用注意力网络来计算。可以通过计算 local-local 视觉特征得到, 可以通过计算local-global 特征得到。因此, 我们提出一个全新的局部一全局因果注意力模块 (Local-Global Causal Attention Module, LGCAM 来联合估计和 ,从而提升视觉特征的因果表征能力。

这里, 我们以的计算为例说明 LGCAM, 如图 4 上半部分所示。具体的, 我们首先计算和 , 然后作为 LGCAM 的输入, 其中表示视觉特征提取器, 表示基于 K-means 的视觉特征选择器。因此, 的计算如下:

类似的, 当设置可以用同样的方式计算得到。最终, 我们将和串联得到最终的 , 估计结果。

四、时空 Transformer 模块

为了挖掘语言和时空表征之间的细粒度关联，我们构建了一种时空Transformer模块，该模块包含四个子模块，分别是问题-外观（Question-Appearance, QA），问题-运动（Question-Motion, QM），外观-语义（Appearance-Semantics, AS），和运动-语义（Motion-Semantics，MS）模块，如图5（a）所示。

QA和QM模块各自包含R-层多模态（Multi-modal）Transformer Block (MTB)，如图5（b）所示，MTB的目的是建立问题和外观（运动）特征之间的多模态交互关系。类似的，AS和MS模块同样采用MTB来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。

图5. 时空Transformer模块示意图（图（a）），多模态Transformer模块（图（b））

结合视觉表征学习模块、多模态语言和视觉时空结构多层次关系建模模MCIR，该框架能够对时空视觉关联、语言语义关联和视觉-语言因果关系进行细粒度的理解，并高效融合跨模态视觉语言语义关联和因果关联关系，实现鲁棒可信赖的细粒度事件级视觉问答，如图6所示。

图6. 基于跨模态因果关系推理的事件级视觉问答框架

五、总结该工作首次在事件级问答推理任务中探索了跨模态因果关系发现的可能性，在结构因果图（Structural Causal Model, SCM）的视角下，创新性地引入了视觉因果前门干预和语言后门因果干预模型，以增强事件级问答推理模型的鲁棒性和可信性。该研究的重要意义在于为未来探索如何利用因果范式提升多模态大模型的鲁棒性、可解释性和可信性提供了思路和启发。中山大学 HCP 团队长期致力于鲁棒、可信、可解释人工智能的研究，基于多模态大模型的认知推理任务，以一种因果驱动的方式来实现鲁棒可信的高阶语义推理，在人机对话、视觉导航、图像/视频生成、图像/视频标注、医学影像报告生成等任务上开展了持续而深入的研究工作，并建立了因果驱动的视觉-语言推理开源框架Causal-VLReasoning:

https://github.com/HCPLab-SYSU/Causal-VLReasoning

中山大学 HCP 团队在多模态人工智能领域有深厚的研究基础，以融合领域知识和语义信息的深度表达学习为主线，从感知单模态大模型到认知多模态大模型，逐步构建认知启发和因果推理引导的视觉计算与推理理论及方法体系。

作者：刘阳本文来源：公众号【PaperWeekly】

Illustration by unDraw

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.