从2023年开始,大模型浪潮彻底席卷了AI学术界和工业界,尤其在诸多人工智能和计算机视觉顶会中,如何将之前通用的视觉backbone与LLMs结合构成全新的多模态大模型(Large Multimodal Models,LMMs)已经成为明星赛道。一些多模态模型甚至已经成为了各种视觉和语言任务的新基线。但是,最近的一些研究表明,即使是目前最为先进的LMM仍然难以捕获复杂视觉场景中的各种对象属性和交互关系。
本文针对这一问题,将场景图(scene graphs,SG)引入到多模态大模型领域,并且基于大模型思维链(Chain-of-Thought,CoT)机制,提出了一种组合思维链(Compositional Chain-of-Thought,CCoT)的方法框架。场景图可以表示视觉场景中各种对象之间的关系和属性,被视为是一种视觉和文本语义之间的桥梁,但是直接SG数据来微调LLM会导致模型出现灾难性遗忘问题,因此作者为本文的CCoT设置了一种零样本思想链提示方法,即以SG表示的形式从LLM中推理出当前场景的组合知识,并将这些知识与原任务内容构成共同上下文送入模型进行推理,作者通过大量的实验表明,CCoT可以在无需微调的情况下有效提升模型在一些通用多模态基准上的性能。
论文题目: Compositional Chain-of-Thought Prompting for Large Multimodal Models 论文链接: https://arxiv.org/abs/2311.17076
一、引言
目前,在一些流行的多模态推理任务,例如视觉问答(VQA)等问题,可以直接使用像LLaVA[1]和InstructBLIP[2]等大型多模态模型来进行推理。但是从一些实验结果可以分析得到,现有的大模型倾向于将图像解析成为“bag of objects”的结构,如下图所示。
假设当前的任务是要求模型识别图像中人的运动状态,从“bag of objects”的角度来看,模型的关注点集中在人和飞盘上,而不在具体的交互关系上,实际上,如果能够明确提示给大模型人与飞盘之间的“投掷”关系,可以让模型更容易识别到运动状态。因此作者尝试将场景图引入到多模态大模型中以提高模型的推理能力,与普通的文字描述相比,场景图数据虽然能够更清晰的表示场景结构,但是其需要大规模的预训练,因而不具备可扩展性。此外,如果直接将场景图嵌入到大模型中训练可能会导致模型出现对原始能力的灾难性遗忘现象。因此本文设计了一种zero-shot的组合思维链方法CCoT,具体来说,CCoT的构建过程可以分为两个步骤:
(1)利用输入图像和任务提示(如视觉问题)来生成场景图,以缓解模型对场景图ground-truth标注的需求。
(2)随后用图像、任务提示和生成的场景图构成整体的提示信息输入到LMM中,使其做出响应,这种方式使得生成的场景图可以描述任何视觉场景,因此整个框架可以适用于各种不同的下游任务中。
二、本文方法
2.1 方法框架
LMM模型可以同时接受视觉和文本输入,例如一张图像 和相关的文本任务提示 ,然后LLM会将多个模态编码到一个共享嵌入空间中,随后语言模型 对其进行推理。具体来说,视觉模态使用视觉编码器 进行编码,而任务提示文本进行语言嵌入编码得到 ,随后得到整体响应 ,可以形式化表示如下:
本文的CCoT会以场景图为中心生成提示,并将其集成到中,LLM会根据集成后的提示输出场景图 来作为多模态推理的中间步骤。
2.2 场景图生成
CCoT首先根据输入的图像和给定提示 来构建一个场景图 ,并要求其包含三个关键属性:物体、物体属性和物体之间的关系,并且规定场景图输出的格式为JSON,这种标准结构化的表示可以帮助对LMM的响应做出解释。详细的场景图生成提示如下图左侧所示:
由于场景图本身具有很强的长尾性,因此仅以图像为条件生成的场景图可能会包含与给定任务提示无关的信息。例如,“草地上的树木”虽然出现在上图中,但其与画面中男子的投掷动作是无关的。形式上,结合输入图像 ,任务提示 以及场景图生成提示 构成的完整提示信息可以表示如下:
然后送入LMM中推理得到场景图 :
2.3 下游任务响应生成
为了避免根据不同的下游任务对场景图进行微调,作者直接将上一步生成的场景图作为大模型思维链中间推理步骤,并将其结合原始任务提示和输入图像作为共同上下文:
如上图右侧所示,除了输入图像 、原始任务提示 和生成的场景图 之外,作者还插入了上下文文本 和答案提取文本 。由于大模型在产生输出时具有很大的灵活度,因此想要令模型的输出符合目标任务的格式(通常是一个字母选项列表),就需要提前以一个简单的子提示 进行指定,例如在LLaVA-1.5中,模型可以直接从选项列表中选择最终的答案选项 ,回答过程可以表示如下:
三、实验效果
本文选择了两个目前流行的LMM,LLaVA-1.5 和 InstructBLIP作为基线模型,其中LLaVA以一种简单的线性投影结构将输入图像的 CLIP 视觉特征映射到具有 LLM 语言标记的共享嵌入空间中,并且使用了大规模的指令图像数据集微调,可以在复杂的推理场景中进行响应,而本文选用的LLaVA-1.5是LLaVA家族中的最新版本,是目前多种多模态基准的SOTA模型。InstructBLIP则直接使用冻结参数的视觉编码器和LLM,它通过Q-former transformer结构来计算多模态特征。
作者在视觉推理和语言组合等相关任务上进行了实验评估,实验数据集选择Winoground和WHOOPS,前者主要用来测试模型组合视觉理解能力,每个样本包含两个图像和一对相应的图像标题,两个标题在语法上非常相似,但包含一个关键的区别,即对象、关系或两者的语义交换形式。后者则涵盖了解释生成、图像说明、跨模态匹配和组合 VQA等多种视觉推理任务。除此之外,作者还使用通用多模态基准SEEDBench和MMBench对CCoT进行了性能评估。
详细的实验结果如上表所示,在组合视 觉理解方面(VL Compositional Benchmarks),CCoT均超越了LLaVA-1.5系列的其他基线方法,并且与SOTA-SGVL的性能相当,需要指出的是,SOTA-SGVL在场景图的ground-truth数据集上进行了微调。在通用多模态基准方面,CCoT可以同时提升LLaVA和InstructBLIP的系列模型的性能,这表明,本文方法具有一定的模型普适能力。
上图展示了CCoT分别在SEEDBench和Winoground基线上对LLaVA和InstructBLIP模型进行改进的具体示例,同时还展示了一些错误案例。如图中左上角的示例中,任务提示为”图中哪两个物体彼此最为接近“,LLaVA-1.5给出的回答是:树枝和一个拿着树枝的男人,而经过CCoT优化后模型给出的回答更加准确:树和女人。
作者还展示了在SEEDBench数据集上的细粒度实验效果 ,如上表所示,其中的指标分别表示:实例计数IC、场景理解SU、实例标识IId、实例属性IA、实例位置IL、 空间关系SR、视觉推理VR、文本理解TU、实例交互IIn。从结果我们可以分析得到,CCoT在绝大多数的子任务上均能对原始的LMM带来额外的多模态信息,以提升模型推理性能。
四、总结
本文从现有多模态大模型难以捕获复杂视觉场景中的对象交互关系的缺陷出发,提出将视觉场景图SG引入到LMM中构成组合思维链框架CCoT。CCoT在提取视觉场景结构方面具有天然优势,作者首先对模型输入场景图构建提示,以zero-shot形式对当前场景进行初步交互探索,随后将场景图与原图像以及目标任务提示构成整体提示送入模型进行推理,以提升模型的组合视觉理解和下游多模态推理能力,而无需使用额外的场景图数据进行微调。本文通过大量的实验表明,CCoT可以轻松嵌入到多种多模态大模型中以提升性能,具有一定的模型通用能力。
参考
[1] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. In NeurIPS, 2023.
[2] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general purpose vision-language models with instruction tuning, 2023.
Illustration From IconScout By Pixel True
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.