网易首页 > 网易号 > 正文 申请入驻

西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

0
分享至


2024年2月,西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室(跨媒体知识融合与工程应用研究所)师生,在人工智能顶级期刊IEEE TPAMI(影响因子:23.6)上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”(鲁棒视觉问答:数据集、方法与挑战)的综述论文,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向下一步的关注重点进行了凝练与总结。

文章作者依次为:马杰(助理教授)、王平辉(教授)、孔德辰(硕士生)、王泽伟(硕士生)、刘均(教授)、裴红斌(助理教授)、赵俊舟(副教授)。

1

视觉问答任务简要介绍

模态(Modality)是由德国物理学家Helmholtz提出的一种生物学概念,即生物依靠感官与经验接收信息的通道,如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体(文本、图像、音频、视频)、环境等多种通道与计算机进行交流,从而充分模拟人与人之间的交互与推理方式。

近年来,如何使计算机具有类人的多模态信息处理能力以实现复杂推理决策成为研究热点,受到研究学者的广泛关注。例如:

1)2022年9月,中国工程院院士潘云鹤在世界人工智能大会上指出,人工智能发展的第四阶段是将数据和多模态智能、多模态知识表达相结合;

2)“多模态”入选《达摩院2023十大科技趋势》。

视觉问答(Visual question answering)任务作为多模态推理效果验证的任务之一,旨在构建能够根据图像准确回答自然语言问题的智能系统。其目标是将人工智能中的计算机视觉和自然语言处理两大领域相结合,使计算机获得像人类一样“看”和“读”的能力。

该任务具有广泛的应用前景,例如为视障人士提供周围世界信息、在没有元数据的情况下辅助图像检索、增强智能虚拟助手的功能、实现视觉推荐系统以及为自动驾驶做出贡献等。


视觉问答:依据图像回答自然语言问题[1]

[1]Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

然而,一些研究发现,视觉问答模型倾向于记忆训练数据中的统计规律或偏置,而不是基于图像来预测答案。

例如,训练集中对于“what sports”这类问题最频繁的答案是“tennis”,因此模型记住了问题中的关键词“what sports”与“tennis”之间的联系,导致模型面对所有包含“what sports”的问题都会倾向于选择“tennis”。

这导致这些方法在具有与训练集相似答案分布(In-Distribution,ID)的测试场景中表现良好,但在具有不同甚至相反答案分布(Out-Of-Distribution,OOD)的测试情况下表现不佳。


视觉问答模型的偏置现象

为了应对上述问题,学界涌现了大量关于鲁棒视觉问答的研究,特别是关注偏置消除和鲁棒性评估。但该领域缺乏系统而全面的综述性工作,西安交通大学发表的鲁棒视觉问答综述,填补了这一空缺。

2

鲁棒视觉问答:

数据集、方法与挑战

视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而,研究结果表明视觉问答方法倾向于记忆训练数据中存在的偏置,而不是正确地学习到如何基于图像信息回答问题。因此,这些方法通常在分布内数据上表现良好,但在分布外数据上表现不佳。

近年来学界已经提出了各种数据集和去偏方法,分别用于评估和增强视觉问答的鲁棒性。本文是首个针对这一新兴领域的全面性综述。

首先,本文从分布内和分布外的角度概述了数据集的构建过程,并介绍了这些数据集所采用的评估指标;其次,本文对现有鲁棒视觉问答模型进行分类,并总结了各个模型的流程、鲁棒性、技术特征等;此外,本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性;最后,通过对现有文献的详尽研究和实验分析,本文从各种角度讨论了鲁棒视觉问答未来研究的关键领域。


数据集和评价指标

论文将视觉问答数据集分为ID和OOD两类。ID数据集的测试集和训练集的分布一致,而OOD数据集的测试集和训练集的分布往往不一致。

ID数据集中最具代表性的是VQA v1/v2,其中每个问题的答案集合包含十个由人类给出的答案。为了平衡答案的分布以减少偏置的影响,在VQA v2中相似的图片和问题可能有完全不同的答案。此外,TDIUC、GQA、COVR、CRIC等ID数据集针对图像来源的分布单一、问题复杂度与多元化程度过低等问题进行了改进。

OOD数据集则以VQA-CP v1/v2为代表,其标志性特点是将VQA v1/v2的测试集和验证集进行重新分配以保证测试集与测试集分布显著不同。GQA-OOD则将GQA数据集的问题根据答案频次分为head和tail两类,以便分别对模型的分布内表现和分布外表现进行验证。VQA-Rephraings、VQA CE、VQA-VS、AVQA、AdVQA等数据集则在语言偏置、多模态偏置、数据集构建模式等方面进行了探索。

由于视觉问答数据集的广泛使用,目前最流行的模型评价指标也是视觉问答数据集采用的指标Open-Ended Accuracy,其被定义为预测答案在答案集合中的个数除以3,然后取其结果与1的较小值,以平衡正确答案的多样性与准确性。


视觉问答常用数据集

去偏方法

论文将去偏方法分为四类:集成学习、数据增强、对比学习和答案重排。

集成学习将具有偏置的分支模型和普通视觉问答模型相结合,从而使分支模型捕捉到偏置并提升普通模型的鲁棒性。

数据增强通常为原始数据集中的每个样本生成额外的增强问题答案对,以平衡训练数据的分布或减轻数据偏差。

对比学习将视觉问答问题映射为一个向量空间,基于数据增强生成正负样本对,使得向量空间中相似样本互相靠近而不相似样本互相远离。

答案重排在普通视觉问答模型给出预测答案的基础上按照一定的重排方法对预测答案进行重新排序,以达到减轻模型偏置的目的。

论文提供了从2017-2023年间四类方法共计68种鲁棒视觉问答模型的数据,并详细介绍了每种模型的典型代表。


鲁棒视觉问答方法整理

视觉语言模型的鲁棒性

由于近些年来视觉-语言预训练技术的兴起,视觉语言模型(Vision-language model)在多模态领域逐渐成为主流,并在多种下游任务上取得了SoTA。

但视觉语言模型在鲁棒视觉问答方面的表现缺乏研究,因此论文梳理了视觉语言模型应用于鲁棒视觉问答任务时的设置与性能表现,将视觉语言模型分为单流(single-stream)和(dual-stream)两类,选取ViLT、BLIP等典型模型进行介绍。

同时在VQA-CP数据集上补充了BLIP和BEiT-3模型的实验,并结合已有实验结果,发现参数量更大的模型,通常表现出更强的鲁棒性,同时将视觉问答建模为生成式任务的模型比建模为判别式任务的模型具有更强的鲁棒性。


视觉语言模型分类


主流视觉语言模型在鲁棒视觉问答任务上的表现

现状分析与未来研究

论文从数据集质量、评估指标有效性等多个方面对鲁棒视觉问答的现状进行深入探讨,提出目前鲁棒视觉问答领域存在数据集中的答案标注缺乏一致性,评价指标衡量维度不够全面,现有去偏方法仅仅在某些OOD数据集上有效,并不具有真正的鲁棒性等问题。

并指明未来研究方向在于构建大规模、多分布、多样性的数据集,提出多种场景下泛用的评价指标,提升视觉问答模型和视觉语言预训练模型在真实场景下的鲁棒性。

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李承铉与儿女合照首次曝光!2岁儿子体型壮实,Lucky越长越像爸爸

李承铉与儿女合照首次曝光!2岁儿子体型壮实,Lucky越长越像爸爸

橙子娱乐菌
2024-06-07 16:34:01
姆巴佩来皇马会拉大和巴萨差距?特巴斯:阿扎尔加盟人们也这么想

姆巴佩来皇马会拉大和巴萨差距?特巴斯:阿扎尔加盟人们也这么想

直播吧
2024-06-10 01:17:21
我和老公体质健全却生下智障儿子,偷偷做了亲子鉴定后,我心凉了

我和老公体质健全却生下智障儿子,偷偷做了亲子鉴定后,我心凉了

星辰故事屋
2024-06-02 17:14:18
太甜了!汪峰森林北新疆骑马,李巧紧牵着汪峰,回眸一笑好浪漫!

太甜了!汪峰森林北新疆骑马,李巧紧牵着汪峰,回眸一笑好浪漫!

小咪侃娱圈
2024-06-09 14:32:59
4-0!国乒全体放弃,早田希娜女单夺冠,张本美和崩盘,日本获3金

4-0!国乒全体放弃,早田希娜女单夺冠,张本美和崩盘,日本获3金

知轩体育
2024-06-09 23:03:59
四位“大龄剩女”,嫁给谁都是“夺妻之恨不共戴天”,你会选谁?

四位“大龄剩女”,嫁给谁都是“夺妻之恨不共戴天”,你会选谁?

阿芒娱乐说
2024-06-03 03:49:17
一条铁路加一条运河,打碎了越南的中南半岛霸主美梦

一条铁路加一条运河,打碎了越南的中南半岛霸主美梦

谈芯说科技
2024-06-09 17:55:10
一张截图刷屏!大白马,天雷滚滚...

一张截图刷屏!大白马,天雷滚滚...

金石随笔
2024-06-10 00:08:31
让上海人头皮发麻的事来了,让人苦不堪言!啥时候结束?

让上海人头皮发麻的事来了,让人苦不堪言!啥时候结束?

锄禾园
2024-06-09 14:45:22
比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

简读视觉
2024-04-13 08:40:03
李雪琴的“内耗”引观众反感,网友:现实中我不想跟她做朋友

李雪琴的“内耗”引观众反感,网友:现实中我不想跟她做朋友

鲜风生活
2024-06-08 21:25:00
越闹越大!山东老人被戏耍后续:小仙女身份疑曝光,丢了谁的脸面

越闹越大!山东老人被戏耍后续:小仙女身份疑曝光,丢了谁的脸面

蜗牛壳里
2024-06-09 16:26:18
完了!韩国媒体放话:亲自埋葬中国足球!六种出线可能,能逆袭?

完了!韩国媒体放话:亲自埋葬中国足球!六种出线可能,能逆袭?

看懂帝国
2024-06-09 12:14:07
吃“春药”,是一种怎样的体验?分享2个案例,告诉你真实感受

吃“春药”,是一种怎样的体验?分享2个案例,告诉你真实感受

奇妙的本草
2024-05-23 19:00:03
大娘水饺老板含泪哭诉:年入15亿却引狼入室,被资本啃得皮都不剩

大娘水饺老板含泪哭诉:年入15亿却引狼入室,被资本啃得皮都不剩

拾叁生意经
2024-05-11 20:25:37
真强硬——断交后,哥总统又宣布“断供”!

真强硬——断交后,哥总统又宣布“断供”!

占豪
2024-06-10 04:05:17
吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

念洲
2024-05-29 11:59:28
发生关系,多久一次最舒服?

发生关系,多久一次最舒服?

匡北北
2023-12-15 23:56:59
陈建斌回新疆老家,父母房子老旧,不愿和儿媳妇蒋勤勤同住一起!

陈建斌回新疆老家,父母房子老旧,不愿和儿媳妇蒋勤勤同住一起!

西瓜爱娱娱
2024-06-07 15:35:38
北电小仙女“征用”商家店铺拍电影,提出奇葩条件惹众怒

北电小仙女“征用”商家店铺拍电影,提出奇葩条件惹众怒

看晓天下事
2024-06-07 13:26:24
2024-06-10 09:06:44
AI科技评论
AI科技评论
点评学术,服务AI
6508文章数 20573关注度
往期回顾 全部

科技要闻

苹果开发者大会今晚开幕,iOS 18即将登场

头条要闻

CIA对以总理最新评估:他将继续无视压力讨论加沙未来

头条要闻

CIA对以总理最新评估:他将继续无视压力讨论加沙未来

体育要闻

独行侠绿军会师总决赛 他成了最尴尬的人

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

疯狂抄底,中东土豪横扫中国资产!

汽车要闻

营收99亿亏损50亿+ 蔚来一季度财报出炉

态度原创

时尚
亲子
本地
公开课
军事航空

女性无论会不会穿搭,夏季都建议备好这三款服装,高级洋气显档次

亲子要闻

广州优孕医院联盟挂牌,致力于提升不孕不育诊疗水平

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

公开课

近视只是视力差?小心并发症

军事要闻

以总理:以军是世界上最有道德的军队

无障碍浏览 进入关怀版