西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI|向量|自然|模态|视频生成模型

西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

2024-04-26 18:50:31　来源: AI科技评论

广东举报

分享至

2024年2月，西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室（跨媒体知识融合与工程应用研究所）师生，在人工智能顶级期刊IEEE TPAMI（影响因子：23.6）上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”（鲁棒视觉问答：数据集、方法与挑战）的综述论文，对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理，并对该方向下一步的关注重点进行了凝练与总结。

文章作者依次为：马杰（助理教授）、王平辉（教授）、孔德辰（硕士生）、王泽伟（硕士生）、刘均（教授）、裴红斌（助理教授）、赵俊舟（副教授）。

视觉问答任务简要介绍

模态（Modality）是由德国物理学家Helmholtz提出的一种生物学概念，即生物依靠感官与经验接收信息的通道，如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体（文本、图像、音频、视频）、环境等多种通道与计算机进行交流，从而充分模拟人与人之间的交互与推理方式。

近年来，如何使计算机具有类人的多模态信息处理能力以实现复杂推理决策成为研究热点，受到研究学者的广泛关注。例如：

1）2022年9月，中国工程院院士潘云鹤在世界人工智能大会上指出，人工智能发展的第四阶段是将数据和多模态智能、多模态知识表达相结合；

2）“多模态”入选《达摩院2023十大科技趋势》。

视觉问答（Visual question answering）任务作为多模态推理效果验证的任务之一，旨在构建能够根据图像准确回答自然语言问题的智能系统。其目标是将人工智能中的计算机视觉和自然语言处理两大领域相结合，使计算机获得像人类一样“看”和“读”的能力。

该任务具有广泛的应用前景，例如为视障人士提供周围世界信息、在没有元数据的情况下辅助图像检索、增强智能虚拟助手的功能、实现视觉推荐系统以及为自动驾驶做出贡献等。

视觉问答：依据图像回答自然语言问题[1]

[1]Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

然而，一些研究发现，视觉问答模型倾向于记忆训练数据中的统计规律或偏置，而不是基于图像来预测答案。

例如，训练集中对于“what sports”这类问题最频繁的答案是“tennis”，因此模型记住了问题中的关键词“what sports”与“tennis”之间的联系，导致模型面对所有包含“what sports”的问题都会倾向于选择“tennis”。

这导致这些方法在具有与训练集相似答案分布（In-Distribution，ID）的测试场景中表现良好，但在具有不同甚至相反答案分布（Out-Of-Distribution，OOD）的测试情况下表现不佳。

视觉问答模型的偏置现象

为了应对上述问题，学界涌现了大量关于鲁棒视觉问答的研究，特别是关注偏置消除和鲁棒性评估。但该领域缺乏系统而全面的综述性工作，西安交通大学发表的鲁棒视觉问答综述，填补了这一空缺。

鲁棒视觉问答：

数据集、方法与挑战

视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而，研究结果表明视觉问答方法倾向于记忆训练数据中存在的偏置，而不是正确地学习到如何基于图像信息回答问题。因此，这些方法通常在分布内数据上表现良好，但在分布外数据上表现不佳。

近年来学界已经提出了各种数据集和去偏方法，分别用于评估和增强视觉问答的鲁棒性。本文是首个针对这一新兴领域的全面性综述。

首先，本文从分布内和分布外的角度概述了数据集的构建过程，并介绍了这些数据集所采用的评估指标；其次，本文对现有鲁棒视觉问答模型进行分类，并总结了各个模型的流程、鲁棒性、技术特征等；此外，本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性；最后，通过对现有文献的详尽研究和实验分析，本文从各种角度讨论了鲁棒视觉问答未来研究的关键领域。

数据集和评价指标

论文将视觉问答数据集分为ID和OOD两类。ID数据集的测试集和训练集的分布一致，而OOD数据集的测试集和训练集的分布往往不一致。

ID数据集中最具代表性的是VQA v1/v2，其中每个问题的答案集合包含十个由人类给出的答案。为了平衡答案的分布以减少偏置的影响，在VQA v2中相似的图片和问题可能有完全不同的答案。此外，TDIUC、GQA、COVR、CRIC等ID数据集针对图像来源的分布单一、问题复杂度与多元化程度过低等问题进行了改进。

OOD数据集则以VQA-CP v1/v2为代表，其标志性特点是将VQA v1/v2的测试集和验证集进行重新分配以保证测试集与测试集分布显著不同。GQA-OOD则将GQA数据集的问题根据答案频次分为head和tail两类，以便分别对模型的分布内表现和分布外表现进行验证。VQA-Rephraings、VQA CE、VQA-VS、AVQA、AdVQA等数据集则在语言偏置、多模态偏置、数据集构建模式等方面进行了探索。

由于视觉问答数据集的广泛使用，目前最流行的模型评价指标也是视觉问答数据集采用的指标Open-Ended Accuracy，其被定义为预测答案在答案集合中的个数除以3，然后取其结果与1的较小值，以平衡正确答案的多样性与准确性。

视觉问答常用数据集

去偏方法

论文将去偏方法分为四类：集成学习、数据增强、对比学习和答案重排。

集成学习将具有偏置的分支模型和普通视觉问答模型相结合，从而使分支模型捕捉到偏置并提升普通模型的鲁棒性。

数据增强通常为原始数据集中的每个样本生成额外的增强问题答案对，以平衡训练数据的分布或减轻数据偏差。

对比学习将视觉问答问题映射为一个向量空间，基于数据增强生成正负样本对，使得向量空间中相似样本互相靠近而不相似样本互相远离。

答案重排在普通视觉问答模型给出预测答案的基础上按照一定的重排方法对预测答案进行重新排序，以达到减轻模型偏置的目的。

论文提供了从2017-2023年间四类方法共计68种鲁棒视觉问答模型的数据，并详细介绍了每种模型的典型代表。

鲁棒视觉问答方法整理

视觉语言模型的鲁棒性

由于近些年来视觉-语言预训练技术的兴起，视觉语言模型（Vision-language model）在多模态领域逐渐成为主流，并在多种下游任务上取得了SoTA。

但视觉语言模型在鲁棒视觉问答方面的表现缺乏研究，因此论文梳理了视觉语言模型应用于鲁棒视觉问答任务时的设置与性能表现，将视觉语言模型分为单流（single-stream）和（dual-stream）两类，选取ViLT、BLIP等典型模型进行介绍。

同时在VQA-CP数据集上补充了BLIP和BEiT-3模型的实验，并结合已有实验结果，发现参数量更大的模型，通常表现出更强的鲁棒性，同时将视觉问答建模为生成式任务的模型比建模为判别式任务的模型具有更强的鲁棒性。

视觉语言模型分类

主流视觉语言模型在鲁棒视觉问答任务上的表现

现状分析与未来研究

论文从数据集质量、评估指标有效性等多个方面对鲁棒视觉问答的现状进行深入探讨，提出目前鲁棒视觉问答领域存在数据集中的答案标注缺乏一致性，评价指标衡量维度不够全面，现有去偏方法仅仅在某些OOD数据集上有效，并不具有真正的鲁棒性等问题。

并指明未来研究方向在于构建大规模、多分布、多样性的数据集，提出多种场景下泛用的评价指标，提升视觉问答模型和视觉语言预训练模型在真实场景下的鲁棒性。

更多内容，点击下方关注：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.