网易首页 > 网易号 > 正文 申请入驻

ISWC 2021 | 当知识图谱遇上零样本视觉问答

0
分享至

将外部知识引入视觉问答(Visual Question Answering, VQA)已成为一个重要的实际需求。 现有的许多方法采用pipeline的模式,多模块分工进行跨模态知识处理和特征学习,但这种模式下,中间件的性能瓶颈会导致不可逆转的误差传播(Error Cascading)。 此外,大多数已有工作都忽略了答案偏见问题——因为长尾效应的存在,真实世界许多答案在模型训练过程中可能不曾出现过(Unseen Answer)。

在本文中,我们提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,一定程度缓解了误差传播对于模型性能的影响。并在原有F-VQA数据集基础上,提供了基于Seen / Unseen答案类别为划分依据的零样本VQA数据集(ZS-F-VQA)。实验表明,我们的方法可以在该数据集下达到最佳性能,同时还可以显著增强端到端模型在标准F-VQA任务上的性能效果。

本文作者:

陈卓(浙江大学)、陈矫彦(牛津大学)、耿玉霞(浙江大学)、Jeff Z. Pan(爱丁堡大学)、苑宗港(华为)、陈华钧(浙江大学)

论文链接:

https://arxiv.org/pdf/2107.05348.pdf

代码链接:

https://github.com/China-UK-ZSL/ZS-F-VQA

一、前言

我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题。

从15年首次被提出至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型…近年来发展迅速。18年Qi Wu等首先提出引入外部知识的KB-VQA问题(FVQA[1]),贡献领域重要数据集(每个问题的回答必须依赖图片以外知识)的同时提出了一种基于知识子图生成并构建查询语句(SPARQL)的方法来解决该问题。以其为代表的后来一系列pipeline模式模型,流程繁琐部署困难的同时还面临着误差传递的风险。

传统端到端方法,尽管某种程度上避免了误差传递,但大多将VQA作为分类任务,这使得其无法对超出候选答案以外(out-of-vocabulary, OOV)的结果进行预测,也即我们提到的零样本学习(Zero-shot Learning, ZSL)。

人天生就具有强大的领域迁移能力,且这种能力往往不需要很多的样本,甚至仅需一些规则描述,根据过往的经验与知识就可以迅速适应一个新的领域,并对新概念进行认知。基于此假设,我们设计零样本下的外部知识VQA:测试集答案与训练集的答案没有重叠。即,在原有F-VQA数据集基础上,提供以Seen / Unseen答案类别为划分依据的ZS-F-VQA数据集,并提出了一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制。

区别于传统VQA基于分类器的模型设定,我们采取基于空间映射的方法,建立多个特征空间并进行知识分解,同时提出了一种灵活的可作用于任何模型的k mask设定,缓解少样本情况下对于Seen类数据的领域漂移。我们的方法提供了一种多模态数据和KG交互的新思路,实验证明在多个模型上可取得稳定的提升,更好地结合外部知识同时缓解误差传播对于模型性能的影响。

二、数据集

由于长尾效应的存在,大多VQA数据存在答案不全/不均衡的特点(e.g. person、dog 等高频答案的出现概率可能是towel、rail等低频答案的数十乃至上百倍),这导致部分概念因为出现次数少而无法被很好地学习,甚至根本就没有被学习(尽管真实场景下,其依然存在被问到的可能)。

我们考虑极端的情况——零样本。即将原始数据根据答案类型,划分为训练/测试集的两个分布。具体来说,我们首先将F-VQA数据集的训练/测试集进行融合,然后统计出现概率TOP500的答案类型(answer class),按照Seen answer和Unseen answer随机划分为250 / 250的比例。此过程重复五次得到5个不同的子集以消除随机划分带来的误差影响。ZS-F-VQA划分统计结果与F-VQA对比如下:

注意到,原始F-VQA是根据图片进行数据划分的,因此在image上的重叠(overlap)是0,而ZS-F-VQA在answer上重叠为0。

三、方法

方法包含两部分。

第一部分,我们提出三个特征空间以处理不同分布的信息:实体空间(Object Space)、语义空间(Semantic Space)、知识空间(Knowledge Space)的概念。其中:

  • 实体空间主要处理图像/文本中存在的重点实体与知识库中存在实例的对齐;

  • 语义空间关注视觉/语言的交互模态中蕴含的语义信息,其目的是让知识库中对应关系的表示在独立空间中进行特征逼近。

  • 知识空间让 (问题,图像)组成的pair与答案直接对齐,建模的是间接知识,旨在挖掘多模态融合向量中存在的(潜层)知识。

第二部是基于知识的答案掩码。

掩码技术技术广泛应用于预训练语言模型(PLM),其在训练阶段遮掩输入的片段,以自监督的方式学习语法语义。与这种方式不同,我们在输出阶段进行答案遮掩:给定输入图像/文本信息得到融合向量后,基于第一部分独立映射的特征空间和给定的超参数Ke / Kr,根据空间距离相似度在实体/语义空间中得到关于实体/关系的映射集,结合知识库三元组信息匹配得到答案候选集。答案候选集作为掩码的依据,在知识空间搜索得到的模糊答案的基础上进行掩码处理,最后进行答案排序。

此处的掩码类型的分为两种:硬掩码(hard mask)和软掩码(soft mask),主要作用于答案的判定分数(score),区别在于遮掩分数的多少。其作用场景分别为零样本场景和普通场景。零样本背景下领域偏移问题严重,硬掩码约束某种意义上对于答案命中效果的提升远大于丢失正确答案所带来的误差。而普通场景下过高的约束则容易导致较多的信息丢失,收益小于损失。

具体实验和讨论见原文。

四、实验

标准F-VQA上的实验效果:

可以看到,取不同的超参k值,相比于其他baseline方法,最多可以取得( 6 ∼ 9% )的稳定提升。而在零样本设定中,ZS-F-VQA数据集下的实验结果如图所示:

模型所取得的提升是十分显著( 30 ∼ 40% )的。

同时,ZS-F-VQA数据下hard mask 取得最佳效果,F-VQA数据下soft mask在不同的掩码分值取值(soft mask)下取得最佳效果,证明hard mask和soft mask的设定是有必要的。

最后,我们也对模型在两个数据集上的结果进行了可解释性分析。

五、总结

现有的模型默认训练集与测试集具有独立同分布的特质,但现实往往不尽如人意,也就是说同分布的假设大概率要打破。正如三位图灵奖大佬最近发表的文章Deep Learning for AI [2]中所强调的核心概念——高层次认知。将现在已经学习的知识或技能重新组合,重构成为新的知识体系,随之也重新构建出了一个新的假想世界(如在月球上开车),这种能力是人类天生就被赋予了的,在因果论中,被称作“反事实”能力。现有的统计学习系统仅仅停留在因果关系之梯的第一层,即观察,观察特征与标签之间的关联,而无法做到更高层次的事情。

这也是我们研究的出发点:零样本领域如何合理利用已有知识我们普遍认为见过的就是事实,而未见过的就是事实以外的错误(反事实),这显然过于绝对。零样本某种意义上,就可看成是反事实的一种特例。

在未来,这其中显然还有更多可以挖掘的可能。

欢迎大家关注我们近期的在零样本学习领域的其他工作 [3-5]!

References:

[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)
[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021
[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021
[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.

Illustrastion by Efrosinya Kovaleva from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>>> 投稿请添加工作人员微信!

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜金:以色列控制着俄罗斯所有网络摄像头,“能斩首普京”?

杜金:以色列控制着俄罗斯所有网络摄像头,“能斩首普京”?

兵国大事
2026-03-19 21:52:34
不吹不黑!原重庆市委副书记王鸿举书法,一笔见风骨刷屏网络

不吹不黑!原重庆市委副书记王鸿举书法,一笔见风骨刷屏网络

李橑在北漂
2026-03-20 10:31:54
任重夫妻晒约会日常!蹲路边吃小面接地气,孙骁骁不适应但仍陪着

任重夫妻晒约会日常!蹲路边吃小面接地气,孙骁骁不适应但仍陪着

命运天注定
2026-03-20 17:53:14
难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

难以置信!一福建男子称,感谢失业后妻子和他离婚,帮他减轻压力

火山詩话
2026-03-20 09:50:39
脱口秀与综艺,正在分道扬镳

脱口秀与综艺,正在分道扬镳

胖鲸头条
2026-03-20 18:40:30
特朗普的这个“玩笑”,就问高市尴不尴尬

特朗普的这个“玩笑”,就问高市尴不尴尬

极目新闻
2026-03-20 13:39:31
中央公布重要文件,养老金调整方向明确,工龄30年以上多涨钱吗?

中央公布重要文件,养老金调整方向明确,工龄30年以上多涨钱吗?

有范又有料
2026-03-20 10:34:36
恐怖!伊朗安全部队的指挥官陆续接到了摩萨德特工的专门电话....

恐怖!伊朗安全部队的指挥官陆续接到了摩萨德特工的专门电话....

深度报
2026-03-19 22:33:30
背靠背三双又刷6纪录!41岁詹皇19+15+10盖世里程碑 复出5战全胜

背靠背三双又刷6纪录!41岁詹皇19+15+10盖世里程碑 复出5战全胜

颜小白的篮球梦
2026-03-20 10:48:51
武元甲晚年坦言:要不是黎笋固执,中国和越南本可携手发展几十年

武元甲晚年坦言:要不是黎笋固执,中国和越南本可携手发展几十年

磊子讲史
2026-03-17 16:45:26
斯诺克爆大冷!4强诞生,中国22岁新星大胜,奥沙利文强势破纪录

斯诺克爆大冷!4强诞生,中国22岁新星大胜,奥沙利文强势破纪录

小青年渌渌
2026-03-20 21:23:18
长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

长津湖冻死冻伤3万人,多年后宋时轮才说出真相:不只是缺棉衣那么简单

寄史言志
2026-03-17 23:25:17
受贿1.27亿余元,山西省政协原党组书记、主席吴存荣一审被判无期

受贿1.27亿余元,山西省政协原党组书记、主席吴存荣一审被判无期

界面新闻
2026-03-20 17:03:08
首款进口乙肝治愈新药,最快年底上市

首款进口乙肝治愈新药,最快年底上市

药圈观察局
2026-03-18 15:08:35
苹果官网紧急更新,建议升级!

苹果官网紧急更新,建议升级!

花果科技
2026-03-20 11:23:22
双杀晋级!夺冠热门诞生,埃梅里神了:欧战7连胜,目标直指冠军

双杀晋级!夺冠热门诞生,埃梅里神了:欧战7连胜,目标直指冠军

足球狗说
2026-03-20 06:14:20
香港知名男星四处欠债,长期陷经济困难,一家六口已申请公屋

香港知名男星四处欠债,长期陷经济困难,一家六口已申请公屋

查尔菲的笔记
2026-03-20 16:11:29
蒋经国写给宋庆龄的硬笔书信惊艳书坛!字迹毕恭毕敬!好似小学生

蒋经国写给宋庆龄的硬笔书信惊艳书坛!字迹毕恭毕敬!好似小学生

鹤羽说个事
2026-03-20 21:20:03
看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

看了姚晨的旧照,才明白凌潇肃曹郁为啥相继沦陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
2026-03-20 23:31:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2318文章数 596关注度
往期回顾 全部

科技要闻

新SU7只涨4千!雷军:真怕交车慢挨骂

头条要闻

高市和特朗普会谈午饭都没吃 称就敏感话题进行"沟通"

头条要闻

高市和特朗普会谈午饭都没吃 称就敏感话题进行"沟通"

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

数码
房产
家居
本地
公开课

数码要闻

洗衣机带烘干,为什么我还需要米家热泵烘干机Pro

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

家居要闻

时空交织 空间绮梦

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版