多模态大型语言模型综述|算法|信号|编码器|上下文|正式版模型

分享至

多模态大型语言模型综述

A Survey on Multimodal Large Language Models

https://arxiv.org/pdf/2306.13549

摘要

近期，以 GPT-4V 为代表的多模态大语言模型（Multimodal Large Language Model, MLLM）已成为一个新兴的研究热点，它利用强大的大语言模型（LLMs）作为“大脑”来执行多模态任务。MLLM 展现出令人惊讶的涌现能力，例如根据图像编写故事、无需 OCR 的数学推理等，这些能力在传统多模态方法中极为罕见，暗示了一条通往通用人工智能的潜在路径。为此，学术界和工业界都在努力开发能够与 GPT-4V 竞争甚至超越它的 MLLM，以惊人的速度不断推动研究边界。本文旨在追踪并总结 MLLM 的最新进展。首先，我们介绍了 MLLM 的基本形式，并阐明其相关概念，包括架构、训练策略与数据，以及评估方法。接着，我们介绍了关于如何将 MLLM 扩展以支持更细粒度、更多模态、更多语言和更多应用场景的研究主题。随后，我们讨论了多模态幻觉问题及相关扩展技术，包括多模态上下文学习（Multimodal ICL, M-ICL）、多模态思维链（Multimodal CoT, M-CoT）和大语言模型辅助的视觉推理（LLM-Aided Visual Reasoning, LAVR）。最后，我们探讨了当前存在的挑战，并指出有前景的研究方向。鉴于 MLLM 时代才刚刚开启，我们将持续更新本综述，希望能激发更多研究。配套的 GitHub 链接汇总了最新论文，地址为：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 。

索引术语—多模态大语言模型，视觉语言模型，大语言模型。

1 引言

近年来，大语言模型（LLMs）[1]–[5] 取得了显著进展。通过扩大数据规模和模型规模，这些 LLM 展现出非凡的涌现能力，典型包括指令遵循 [5]、[6]、上下文学习（In-Context Learning, ICL）[7] 和思维链（Chain of Thought, CoT）[8]。尽管 LLM 在大多数自然语言处理（NLP）任务上展现出令人惊讶的零样本/少样本推理性能，但它们本质上是“盲”的——因为它们只能理解离散文本。与此同时，大视觉模型（Large Vision Models, LVMs）能够清晰“看见”图像 [9]–[12]，但在推理能力方面通常较为滞后。

鉴于这种互补性，LLM 与 LVM 相向而行，催生了多模态大语言模型（Multimodal Large Language Model, MLLM）这一新领域。形式上，MLLM 指的是基于 LLM、具备接收、推理和输出多模态信息能力的模型。在 MLLM 出现之前，已有大量工作致力于多模态研究，可分为判别式 [13]–[15] 和生成式 [16]–[18] 两种范式。前者以 CLIP [13] 为代表，将视觉与文本信息投影到统一的表征空间中，为下游多模态任务搭建桥梁；后者以 OFA [16] 为代表，以序列到序列的方式统一多模态任务。MLLM 按照序列操作方式可归类为后者，但与传统方法相比，它展现出两个代表性特征：(1) MLLM 基于参数量达数十亿级别的 LLM，这是以往模型所不具备的；(2) MLLM 采用新的训练范式以充分释放其潜力，例如使用多模态指令微调 [19]、[20] 来促使模型遵循新指令。

凭借这两个特征，MLLM 展现出全新能力，例如根据图像编写网页代码 [21]、理解网络迷因（meme）的深层含义 [22]，以及无需 OCR 的数学推理 [23]。

自从 GPT-4 [3] 发布以来，因其展示出的惊人多模态示例，学术界掀起了 MLLM 研究热潮。这一快速发展由学术界和工业界的共同努力推动。早期的 MLLM 研究聚焦于基于文本提示和图像 [20]、[24]/视频 [25]、[26]/音频 [27] 生成文本内容。后续工作进一步拓展了模型能力或应用场景，包括：(1) 更细粒度的支持。通过引入边界框 [28] 或点击某对象 [29]，实现对用户提示中特定区域或物体的精细控制；(2) 对输入和输出模态的增强支持 [30]、[31]，如图像、视频、音频和点云。除输入外，如 NExT-GPT [32] 等项目还支持多模态输出；(3) 改进的语言支持。已有研究尝试将 MLLM 的成功扩展到其他语言（如中文），即使其训练语料相对有限 [33]、[34]；(4) 向更多领域和应用场景延伸。一些研究将 MLLM 的强大能力迁移至医学图像理解 [35]–[37] 和文档解析 [38]–[40] 等领域。此外，还开发了多模态智能体以辅助现实世界交互，例如具身智能体（embodied agents）[41]、[42] 和图形用户界面智能体（GUI agents）[43]–[45]。图1展示了 MLLM 的发展时间线。

鉴于该领域的快速发展和广阔前景，我们撰写本综述，旨在帮助研究人员掌握 MLLM 的基本思想、主流方法和当前进展。需要注意的是，我们主要关注视觉与语言模态，但也纳入了涉及视频、音频等其他模态的工作。具体而言，我们覆盖了 MLLM 最重要的方面并提供相应总结，同时开设了一个 GitHub 页面进行实时更新。据我们所知，这是首篇关于 MLLM 的综述。

本综述后续结构如下：首先全面回顾 MLLM 的核心要素，包括 (1) 主流架构（§2）；(2) 完整的训练策略与数据配方（§3）；(3) 常见的性能评估实践（§4）。随后，我们深入探讨若干重要主题，每个主题聚焦一个核心问题：(1) 哪些方面可进一步改进或扩展（§5）？(2) 如何缓解多模态幻觉问题（§6）？接着，我们介绍三项关键技术（§7），每项技术针对特定场景：多模态上下文学习（M-ICL，§7.1）是一种常用于推理阶段以提升少样本性能的有效技术；另一项重要技术是多模态思维链（M-CoT，§7.2），通常用于复杂推理任务；之后，我们阐述一种通用思路，即构建基于 LLM 的系统以解决复合推理任务或响应常见用户查询（§7.3）。最后，我们以总结和潜在研究方向结束本综述。

2 架构

一个典型的 MLLM 可以抽象为三个模块，即：一个预训练的模态编码器、一个预训练的大语言模型（LLM），以及一个连接两者的模态接口。类比人类，图像/音频编码器等模态编码器相当于人的眼睛/耳朵，用于接收并预处理光/声信号；而 LLM 则类似于人脑，用于理解和推理这些已处理的信号。在两者之间，模态接口的作用是实现不同模态之间的对齐。一些 MLLM 还包含一个生成器，用于输出除文本以外的其他模态。图2绘制了该架构的示意图。本节将依次介绍每个模块。

2.1 模态编码器

编码器将原始信息（如图像或音频）压缩为更紧凑的表征。通常不从头开始训练，而是采用已在其他模态上对齐过的预训练编码器。例如，CLIP [13] 包含一个视觉编码器，该编码器通过在大规模图像-文本对上进行预训练，实现了与文本的语义对齐。因此，使用这类初始已对齐的编码器，再通过对齐预训练（见 §3.1）将其与 LLM 对齐会更加容易。

常用图像编码器系列总结于表1。除了标准的 CLIP 图像编码器 [13] 外，一些工作也探索使用其他变体。例如，MiniGPT-4 [21] 采用了 EVA-CLIP [47]、[48]（ViT-G/14）编码器，该编码器使用了改进的训练技术进行训练。相比之下，Osprey [29] 引入了基于卷积的 ConvNext-L 编码器 [46]，以利用更高分辨率和多层级特征。还有一些工作探索了无编码器（encoder-free）架构。例如，Fuyu-8B [49] 直接将图像块（image patches）投影后送入 LLM。因此，该模型天然支持灵活的图像分辨率输入。

在选择编码器时，通常会考虑分辨率、参数量和预训练语料等因素。值得注意的是，许多工作已通过实验验证：使用更高分辨率可带来显著的性能提升 [34]、[50]、[51]、[52]。扩大输入分辨率的方法可分为直接缩放（direct scaling）和分块（patch-division）两类。直接缩放方法将更高分辨率的图像直接输入编码器，通常涉及对编码器进行进一步微调 [34]，或替换为支持更高分辨率的预训练编码器 [50]。类似地，CogAgent [44] 采用双编码器机制，其中两个编码器分别处理高分辨率和低分辨率图像；高分辨率特征通过交叉注意力注入到低分辨率分支中。分块方法则将高分辨率图像切分为多个图像块，并复用低分辨率编码器。例如，Monkey [51] 和 SPHINX [53] 将大图像划分为若干小块，并将这些子图像与一个下采样后的全图一起送入图像编码器——其中子图像捕获局部特征，而下采样图像捕获全局特征。相比之下，经验研究表明，参数量和训练数据组成相较于输入分辨率而言重要性较低 [52]。

其他模态也有类似的编码器可用。例如，Pengi [27] 使用 CLAP [54] 模型作为音频编码器；ImageBind-LLM [30] 则采用 ImageBind [55] 编码器，该编码器支持对图像、文本、音频、深度图、热成像和惯性测量单元（IMU）数据进行编码。借助这一强大的编码器，ImageBind-LLM 能够响应多模态输入。

2.2 预训练大语言模型（Pre-trained LLM）

从头开始训练一个 LLM 既低效也不现实，因此更高效且实用的做法是基于一个预训练好的 LLM 进行开发。通过在海量网络语料上进行大规模预训练，LLM 已内嵌丰富的世界知识，并展现出强大的泛化与推理能力。

我们在表2中总结了常用且公开可用的 LLM。值得注意的是，大多数 LLM 属于因果解码器（causal decoder）类型，遵循 GPT-3 [7] 的范式。其中，Flan-T5 [56] 系列是较早被用于 BLIP-2 [59] 和 InstructBLIP [60] 等工作的 LLM。LLaMA 系列 [5]、[57] 和 Vicuna 家族 [4] 是具有代表性的开源 LLM，受到学术界广泛关注。由于这两个 LLM 主要在英文语料上预训练，它们在多语言支持（如中文）方面存在局限。相比之下，Qwen [58] 是一个双语 LLM，在中文和英文上均表现良好。

需要指出的是，扩大 LLM 的参数量也能带来额外收益，这与提升输入分辨率的情况类似。具体而言，Liu 等人 [50]、[61] 发现，仅将 LLM 从 7B 扩展到 13B，即可在各类基准测试上带来全面性能提升。此外，当使用 34B 的 LLM 时，即使训练过程中仅使用英文多模态数据，模型也展现出涌现的零样本中文能力。Lu 等人 [62] 在将 LLM 从 13B 扩展到 35B 乃至 65B/70B 时也观察到类似现象——更大的模型规模在专为 MLLM 设计的基准测试上持续带来性能增益。

也有一些工作采用较小的 LLM 以便于在移动设备上部署。例如，MobileVLM 系列 [63]、[64] 使用了缩小版的 LLaMA [5]（称为 MobileLLaMA 1.4B/2.7B），从而实现在移动处理器上的高效推理。

近期，针对 LLM 的混合专家（Mixture of Experts, MoE）架构探索引起了越来越多关注 [65]–[67]。与稠密模型相比，这种稀疏架构通过选择性激活部分参数，在不增加计算成本的前提下实现总参数量的扩展。经验表明，MM1 [52] 和 MoE-LLaVA [68] 均发现，MoE 实现在几乎所有基准测试上均优于对应的稠密模型。

2.3 模态接口

由于 LLM 仅能感知文本，因此有必要弥合自然语言与其他模态之间的鸿沟。然而，以端到端方式训练一个大型多模态模型成本高昂。一种更实际的做法是在预训练的视觉编码器与 LLM 之间引入一个可学习的连接器（connector）。另一种方法是借助专家模型将图像转换为语言，再将该语言输入 LLM。

可学习连接器（Learnable Connector）其作用是弥合不同模态之间的差距。具体而言，该模块将信息投影到 LLM 能够高效理解的空间中。根据多模态信息融合的方式，此类接口大致可分为两类：token 级融合和特征级融合。

在 token 级融合中，编码器输出的特征被转换为 token，并与文本 token 拼接后送入 LLM。一种常见且可行的方案是利用一组可学习的查询 token，以基于查询的方式提取信息 [69]，该方法最早在 BLIP-2 [59] 中实现，随后被大量工作继承 [26]、[60]、[70]。这类 Q-Former 风格的方法将视觉 token 压缩为数量更少的表征向量。相比之下，一些方法则简单地使用基于 MLP 的接口来弥合模态差距 [20]、[37]、[71]、[72]。例如，LLaVA 系列采用一个或两个线性 MLP [20]、[50] 来投影视觉 token，并将其特征维度对齐到词嵌入空间。

值得一提的是，MM1 [52] 对连接器的设计选择进行了消融实验，发现对于 token 级融合而言，模态适配器的具体类型远不如视觉 token 的数量和输入分辨率重要。尽管如此，Zeng 等人 [73] 比较了 token 级与特征级融合的性能，并通过实验表明：在 VQA 基准测试中，token 级融合变体表现更优。关于性能差距，作者指出，交叉注意力模型可能需要更复杂的超参数搜索过程才能达到可比性能。

另一方面，特征级融合通过插入额外模块，实现文本特征与视觉特征之间的深度交互与融合。例如，Flamingo [74] 在 LLM 冻结的 Transformer 层之间插入额外的交叉注意力层，从而用外部视觉线索增强语言特征。类似地，CogVLM [75] 在每个 Transformer 层中插入一个视觉专家模块，以实现视觉与语言特征之间的双向交互与融合。为获得更好性能，所引入模块的 QKV 权重矩阵从预训练 LLM 初始化。同样，LLaMA-Adapter [76] 在 Transformer 层中引入可学习的提示（prompts），这些提示首先嵌入视觉知识，然后作为前缀与文本特征拼接。

就参数量而言，可学习接口通常只占整个模型的一小部分。以 Qwen-VL [34] 为例，Q-Former 的参数量约为 0.08B，不到总参数量的 1%；而编码器和 LLM 分别约占 19.8%（1.9B）和 80.2%（7.7B）。

专家模型（Expert Model）除了可学习接口，使用专家模型（如图像描述生成模型）也是弥合模态鸿沟的一种可行方式 [77]–[80]。其基本思想是在不进行训练的情况下，将多模态输入转换为语言。这样，LLM 就可以通过转换后的语言理解多模态信息。例如，VideoChat-Text [25] 使用预训练的视觉模型提取动作等视觉信息，并借助语音识别模型丰富描述内容。尽管使用专家模型操作简单，但其灵活性可能不如采用可学习接口。将非文本模态转换为文本会导致信息损失。例如，将视频转化为文本描述会扭曲其时空关系 [25]。

3 训练策略与数据

一个成熟的 MLLM 通常经历三个训练阶段，即：预训练（pre-training）、指令微调（instruction-tuning）和对齐微调（alignment tuning）。每个训练阶段需要不同类型的数据，并实现不同的目标。本节将分别讨论各阶段的训练目标，以及数据的收集方式与特性。

3.1 预训练 3.1.1 训练细节

作为首个训练阶段，预训练的主要目标是对齐不同模态并学习多模态世界知识。预训练阶段通常依赖大规模的文本配对数据，例如图像/音频/视频的描述（caption）数据。这些描述通常以自然语言句子的形式呈现。

此处我们考虑一种常见场景：MLLM 被训练用于对齐视觉与文本模态。如表3所示，给定一张图像，模型被训练以自回归方式预测该图像的描述（caption），采用标准的交叉熵损失函数。

预训练的一种常见做法是冻结预训练模块（如视觉编码器和 LLM），仅训练一个可学习的接口（learnable interface）[20]、[35]、[72]。其核心思想是在不丢失已有预训练知识的前提下，实现不同模态的对齐。也有一些方法 [34]、[81]、[82] 会解冻更多模块（例如视觉编码器），以启用更多可训练参数来提升对齐效果。

需要注意的是，训练方案与数据质量密切相关。对于简短且含噪声的描述数据，可采用较低分辨率（如 224）以加速训练；而对于更长且更干净的数据，则宜使用更高分辨率（如 448 或更高），以减轻幻觉问题。此外，ShareGPT4V [83] 发现，在预训练阶段使用高质量描述数据时，解锁视觉编码器有助于实现更好的模态对齐。

3.1.2 数据

预训练数据主要服务于两个目的：(1) 对齐不同模态；(2) 提供世界知识。根据粒度粗细，预训练语料可分为粗粒度和细粒度两类，下文将依次介绍。常用预训练数据集汇总于表4。

粗粒度描述数据具有一些典型共性：
(1) 数据量庞大，因为样本通常来自互联网；
(2) 由于是网络爬取所得，描述通常较短且含噪声，因为它们源自网页图像的 alt-text（替代文本）。

这类数据可通过自动化工具进行清洗和过滤，例如使用 CLIP [13] 模型剔除图像-文本对相似度低于预设阈值的样本。接下来介绍一些具有代表性的粗粒度数据集。

CC（Conceptual Captions）

CC-3M [84]是一个包含 330 万图像-描述对的网络规模描述数据集，原始描述来自与图像关联的 alt-text。作者设计了一套复杂的清洗流程：

(1) 对图像：过滤掉包含不当内容或宽高比异常的图像；
(2) 对文本：使用 NLP 工具获取文本标注，并根据设定的启发式规则过滤样本；
(3) 对图像-文本对：通过分类器为图像分配标签，若文本标注与图像标签无重叠，则丢弃该样本。
CC-12M [85]是 CC-3M 的后续工作，包含 1240 万图像-描述对。相比前作，CC-12M 放宽并简化了数据收集流程，从而收集到更多数据。

SBU Captions [86]
这是一个包含 100 万图像-文本对的带描述照片数据集，图像和描述均来自 Flickr。具体而言，研究者通过在 Flickr 网站上使用大量查询词进行检索，获取初始图像集，图像附带的描述即作为 caption。为确保描述与图像相关，保留的图像需满足以下条件：
(1) 图像描述长度适中（通过观察确定）；
(2) 描述中至少包含两个预定义术语列表中的词汇，以及一个表示空间关系的介词（如 “on”、“under”）。

LAION。该系列是大规模网络级数据集，图像从互联网爬取，其对应的 alt-text 作为描述（captions）。为过滤图像-文本对，执行了以下步骤：
(1) 剔除文本过短，或图像尺寸过小/过大的样本；
(2) 基于 URL 进行图像去重；
(3) 提取图像和文本的 CLIP [13] 嵌入，并利用这些嵌入剔除可能包含非法内容的样本，以及图像与文本嵌入之间余弦相似度较低的图像-文本对。

以下是对一些典型变体的简要总结：

LAION-5B [87]：这是一个面向研究的包含 58.5 亿（5.85B）图像-文本对的数据集。该数据集为多语言，其中包含一个 20 亿（2B）规模的英文子集。
LAION-COCO [88]：它从 LAION-5B 的英文子集中提取出 6 亿（600M）张图像。其描述是合成的：使用 BLIP [89] 为图像生成多种描述，并使用 CLIP [13] 选择与图像最匹配的一条作为最终 caption。

COYO-700M [90]。该数据集包含 7.47 亿（747M）图像-文本对，从 CommonCrawl 中提取。在数据过滤方面，作者设计了以下策略：
(1) 对图像：过滤掉尺寸、内容、格式或宽高比不合适的图像；此外，基于 pHash 值进行过滤，以移除与 ImageNet 和 MS-COCO 等公开数据集重叠的图像；
(2) 对文本：仅保留长度合适、包含名词形式且用词恰当的英文文本。句子前后的空白字符被移除，连续的空白字符被替换为单个空格。此外，出现超过 10 次的重复文本（如 “image for”）会被剔除；
(3) 对图像-文本对：基于 (图像 pHash, 文本) 元组进行去重。

近期，更多工作 [83]、[91]、[92] 探索通过向强大的 MLLM（如 GPT-4V）发送提示（prompting）来生成高质量的细粒度数据。与粗粒度数据相比，这类数据通常包含更长、更准确的图像描述，从而实现图像与文本模态之间更精细的对齐。然而，由于该方法通常需要调用商用 MLLM，成本较高，且数据规模相对较小。值得注意的是，ShareGPT4V [83] 通过以下方式取得平衡：首先使用 GPT-4V 生成的 10 万条数据训练一个描述生成器（captioner），然后利用该预训练描述生成器将数据规模扩展至 120 万条。

3.2 指令微调（Instruction-tuning）3.2.1 引言

“指令”指对任务的描述。直观上，指令微调旨在教会模型更好地理解用户指令并完成所要求的任务。通过这种方式进行微调，LLM 能够通过遵循新指令泛化到未见过的任务，从而提升零样本（zero-shot）性能。这一简单而有效的思想催生了后续一系列 NLP 工作的成功，例如 ChatGPT [2]、InstructGPT [95]、FLAN [19]、[56] 和 OPT-IML [96]。

图3展示了指令微调与相关典型学习范式之间的对比。监督微调（supervised fine-tuning）方法通常需要大量任务特定数据来训练专用模型。提示（prompting）方法则降低了对大规模数据的依赖，可通过提示工程（prompt engineering）完成特定任务。在这种情况下，尽管少样本（few-shot）性能有所提升，但零样本性能仍然较为一般 [7]。相比之下，指令微调学习的是如何泛化到未见任务，而非像前两者那样拟合特定任务。此外，指令微调与多任务提示（multi-task prompting）[97] 密切相关。

本节将阐述指令样本的格式、训练目标、收集指令数据的典型方法，以及相应的常用数据集。

3.2.2 训练细节

一个多模态指令样本通常包含一个可选的指令（instruction）以及一个输入-输出对。

指令通常是一个自然语言句子，用于描述任务，例如：“详细描述这张图像。”
输入可以是图像-文本对（如 VQA 任务 [99]），也可以仅是一张图像（如图像描述任务 [100]）。
输出则是基于输入条件下对指令的回答。

指令模板具有灵活性，可根据人工设计进行调整 [20]、[25]、[98]，表5中给出了示例。需要注意的是，该指令模板也可推广至多轮对话场景 [20]、[37]、[71]、[98]。

形式上，一个多模态指令样本可用三元组表示：(I, M, R)，其中 I、M、R 分别代表指令（instruction）、多模态输入（multimodal input）和真实回答（ground truth response）。MLLM 在给定指令和多模态输入的条件下预测一个回答：

此处， A A 表示预测的答案， θ θ 是模型的参数。训练目标通常是用于训练大语言模型（LLMs）[20]、[37]、[71]、[101] 的原始自回归目标，基于此目标，MLLM 被鼓励预测回答中的下一个 token。该目标可表示为：

其中 N N 是真实回答的长度。

3.2.3 数据收集

由于指令数据在格式上更加灵活、任务表述形式多样，其数据样本的收集通常更为棘手且成本更高。本节总结了三种在大规模下获取指令数据的典型方法：数据适配（data adaptation）、自指令生成（self-instruction）和数据混合（data mixture）。

数据适配（Data Adaptation）
面向特定任务的数据集是高质量数据的丰富来源。因此，大量工作 [60]、[70]、[76]、[82]、[101]–[104] 利用现有的高质量数据集构建指令格式的数据集。以 VQA 数据集的转换为例：原始样本是一个输入-输出对，其中输入包含一张图像和一个自然语言问题，输出则是基于该图像对问题的文本回答。这些数据集的输入-输出对可自然构成指令样本中的多模态输入与响应（参见 §3.2.2）。而指令（即任务描述）可来自人工设计，也可借助 GPT 进行半自动生成。

具体而言，一些工作 [21]、[35]、[60]、[70]、[102]、[105] 手工构建一个候选指令池，并在训练过程中随机采样其中一条。表6展示了 VQA 数据集指令模板的一个示例。另一些工作则手动设计若干种子指令，并以此提示 GPT 生成更多指令 [25]、[82]、[98]。

需要注意的是，由于现有 VQA 和图像描述数据集的答案通常较为简洁，直接将其用于指令微调可能会限制 MLLM 的输出长度。对此，有两种常见策略：
第一种是在指令中明确指定输出长度。例如，ChatBridge [104] 对短答案数据明确要求“简短扼要”，对常规粗粒度描述数据则要求“一句话”或“单句”。
第二种是扩展现有答案的长度 [105]。例如，M3IT [105] 提出通过向 ChatGPT 输入原始问题、答案以及图像上下文信息（如描述和 OCR 结果），对原始答案进行改写，从而生成更长的回答。

自指令生成（Self-Instruction）
尽管现有的多任务数据集可提供丰富的数据来源，但它们通常难以很好地满足现实场景中的人类需求，例如多轮对话。为解决这一问题，一些工作通过自指令生成方式收集样本 [106]，即利用 LLM 基于少量人工标注样本生成文本形式的指令遵循数据。具体做法是：先手工构建若干指令遵循样本作为示例（demonstrations），然后提示 ChatGPT/GPT-4 以这些示例为引导，生成更多指令样本。

LLaVA [20] 将该方法扩展到多模态领域：将图像转换为包含描述和边界框的文本，再提示纯文本版的 GPT-4，在需求和示例的引导下生成新数据。通过这种方式，构建了一个名为 LLaVA-Instruct-150k 的多模态指令数据集。沿袭这一思路，后续工作如 MiniGPT-4 [21]、ChatBridge [104]、GPT4Tools [107] 和 DetGPT [72] 开发了满足不同需求的各类数据集。近期，随着更强大的多模态模型 GPT-4V 的发布，许多工作开始采用 GPT-4V 生成更高质量的数据，例如 LVIS-Instruct4V [91] 和 ALLaVA [92]。我们在表7中汇总了通过自指令生成的流行数据集。

数据混合（Data Mixture）
除了多模态指令数据外，纯语言的用户-助手对话数据也可用于提升模型的对话能力和指令遵循能力 [81]、[98]、[101]、[103]。LaVIN [101] 直接从纯语言数据和多模态数据中随机采样，构建一个 mini-batch。MultiInstruct [102] 探索了融合单模态与多模态数据的不同训练策略，包括：混合指令微调（将两类数据合并后随机打乱）和顺序指令微调（先训练文本数据，再训练多模态数据）。

3.2.4 数据质量

近期研究表明，指令微调样本的数据质量至少与数据量同等重要。Lynx [73] 发现，在大规模但含噪声的图像-文本对上预训练的模型，其性能不如在规模较小但更干净的数据集上预训练的模型。类似地，Wei 等人 [108] 发现，使用更少但质量更高的指令微调数据反而能取得更好性能。针对数据过滤，该工作提出了一些评估数据质量的指标，并相应地设计了一种自动剔除低质视觉-语言数据的方法。此处我们讨论数据质量的两个重要方面：

提示多样性（Prompt Diversity）
已有研究发现，指令的多样性对模型性能至关重要。Lynx [73] 通过实验验证，多样化的提示有助于提升模型性能和泛化能力。

任务覆盖范围（Task Coverage）
关于训练数据所涵盖的任务类型，Du 等人 [109] 进行了一项实证研究，发现视觉推理任务在提升模型性能方面优于图像描述和问答（QA）任务。此外，该研究还指出，提升指令的复杂性可能比增加任务多样性或引入细粒度空间标注更有益。

3.3 对齐微调（Alignment Tuning） 3.3.1 引言

对齐微调更常用于需要使模型与特定人类偏好对齐的场景，例如生成更少幻觉的回答（参见 §6）。目前，基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）和直接偏好优化（Direct Preference Optimization, DPO）是两种主要的对齐微调技术。本节将依次介绍这两种技术的核心思想，举例说明它们如何用于解决实际问题，并最后汇总相关数据集。

3.3.2 训练细节

RLHF [110]、[111]。该技术旨在利用强化学习算法，使大语言模型（LLMs）与人类偏好对齐，训练过程中以人类标注作为监督信号。如 InstructGPT [95] 所示，RLHF 包含三个关键步骤：

研究人员已探索使用 RLHF 技术以实现更好的多模态对齐。例如，LLaVA-RLHF [112] 收集人类偏好数据，并基于 LLaVA [20] 微调出一个幻觉更少的模型。

DPO [113]。它利用简单二元分类损失，直接从人类偏好标签中学习。与基于 PPO 的 RLHF 算法相比，DPO 无需学习显式的奖励模型，从而将整个流程简化为两个步骤，即：人类偏好数据收集与偏好学习。其学习目标如下：

RLHF-V [114] 通过修正模型回答中的幻觉，收集了细粒度（片段级别）的偏好数据对，并利用所获得的数据执行密集型 DPO（dense DPO）。Silkie [115] 则通过向 GPT-4V 发送提示来收集偏好数据，并通过 DPO 将这种偏好监督蒸馏到一个经过指令微调的模型中。

3.3.3 数据

对齐微调阶段数据收集的核心在于收集对模型回答的反馈，即判断哪个回答更好。这类数据的收集通常成本更高，且该阶段所用数据量一般甚至少于之前的训练阶段。本部分介绍若干相关数据集，并在表8中对其进行汇总。

LLaVA-RLHF [112]：包含 1 万组（10K）由人类基于诚实性与有用性反馈收集的偏好对。该数据集主要用于减少模型回答中的幻觉问题。
RLHF-V [114]：包含 5700 组（5.7K）细粒度的人类反馈数据，通过片段级别的幻觉修正方式收集。
VLFeedback [115]：利用人工智能（AI）对模型回答提供反馈。该数据集包含超过 38 万组（380K）比较对，由 GPT-4V 根据有用性、忠实性（faithfulness）和伦理关切进行评分。

4 评估

评估是开发 MLLM 的关键环节，因为它为模型优化提供反馈，并有助于比较不同模型的性能。与传统多模态模型的评估方法相比，MLLM 的评估呈现出若干新特点：(1) 由于 MLLM 通常具有通用性，因此对其进行全面评估至关重要；(2) MLLM 展现出许多涌现能力（如无需 OCR 的数学推理），这些能力需要特别关注，因而要求新的评估方案。

根据问题类型，MLLM 的评估大致可分为两类：封闭集（closed-set）和开放集（open-set）。

4.1 封闭集

封闭集问题指答案选项预先定义且限定于有限集合的问题。此类评估通常在任务特定的数据集上进行，其回答可自然地通过基准指标进行评判 [20]、[60]、[70]、[76]、[101]–[105]。例如，InstructBLIP [60] 报告了在 ScienceQA [116] 上的准确率，以及在 NoCaps [118] 和 Flickr30K [119] 上的 CIDEr 分数 [117]。

评估设置通常分为零样本（zero-shot）[60]、[102]、[104]、[105] 或微调（finetuning）[20]、[35]、[60]、[70]、[76]、[101]、[103]、[105]。

前者通常选取覆盖多种通用任务的广泛数据集，并将其划分为“训练内”（held-in）和“训练外”（held-out）两部分：在前者上微调后，在后者上评估零样本性能，包括未见过的数据集甚至未见过的任务。
后者则常见于领域特定任务的评估。例如，LLaVA [20] 和 LLaMA-Adapter [76] 报告了在 ScienceQA [116] 上的微调性能；LLaVA-Med [35] 则在生物医学 VQA 数据集 [120]–[122] 上报告结果。

上述评估方法通常局限于少量选定任务或数据集，缺乏全面的定量比较。为此，一些研究致力于开发专为 MLLM 设计的新基准 [123]–[129]。例如：

Fu 等人 [123] 构建了综合性评估基准 MME，包含共计 14 项感知与认知任务，其中所有指令-回答对均为人工设计，以避免数据泄露；
MMBench [124] 是一个专门用于评估模型多维能力的基准，利用 ChatGPT 将开放回答匹配到预定义选项；
Video-ChatGPT [130] 和 Video-Bench [131] 聚焦视频领域，提出了专用的基准及评估工具；
还有一些评估策略针对模型的特定方面，例如 POPE [132] 用于评估幻觉程度。

4.2 开放集

与封闭集问题不同，开放集问题的回答更加灵活，MLLM 通常扮演聊天机器人角色。由于对话内容可以任意，其评判比封闭式输出更为困难。评判标准可分为人工打分、GPT 打分和案例研究。

人工打分要求人类评估生成的回答，通常涉及人工设计的问题，以评估特定维度的能力。例如：

mPLUG-Owl [81] 收集了一个视觉相关评估集，用于评判自然图像理解、图表与流程图理解等能力；
GPT4Tools [107] 分别构建了用于微调和零样本性能的两个评估集，并从“思维、行动、论据和整体”四个维度评估回答。

由于人工评估劳动密集，一些研究者探索使用 GPT 进行评分，即GPT 打分。该方法常用于多模态对话性能评估。例如：

LLaVA [20] 提出通过纯文本版 GPT-4 从多个维度（如有用性、准确性）对回答打分。具体做法是从 COCO [133] 验证集中采样 30 张图像，每张图像通过 GPT-4 自指令生成一个简短问题、一个详细问题和一个复杂推理问题；将模型和 GPT-4 生成的答案一同送入 GPT-4 进行比较。
后续工作沿用此思路，提示 ChatGPT [81] 或 GPT-4 [35]、[70]、[101]、[104]、[105] 对结果打分 [35]、[70]、[81]、[101]、[104]，或判断哪个回答更优 [103]。

然而，使用纯文本 GPT-4 作为评估器的主要问题是：评判仅基于与图像相关的文本内容（如描述或边界框坐标），而无法访问图像本身 [35]。因此，在这种情况下将 GPT-4 视为性能上限可能值得商榷。随着 GPT 视觉接口的发布，一些工作 [77]、[134] 开始利用更先进的 GPT-4V 模型评估 MLLM 性能。例如，Woodpecker [77] 采用 GPT-4V 基于图像直接评判模型回答的质量。由于 GPT-4V 可直接访问图像，预期其评估比纯文本 GPT-4 更准确。

案例研究（case study）是一种补充方法，通过具体案例比较不同 MLLM 的能力。例如，一些研究评估了两种典型的商用先进模型 GPT-4V 和 Gemini：

Yang 等人 [135] 通过在多个领域和任务中精心构造一系列样本，对 GPT-4V 进行深入定性分析，涵盖从基础技能（如图像描述、物体计数）到需世界知识与推理的复杂任务（如笑话理解、作为具身智能体的室内导航）；
Wen 等人 [136] 通过设计面向自动驾驶场景的样本，对 GPT-4V 进行更聚焦的评估；
Fu 等人 [137] 通过对 Gemini-Pro 与 GPT-4V 的全面对比评估发现，尽管两者回答风格不同，但在视觉推理能力上表现相当。

5 扩展

近期研究在拓展 MLLM 能力方面取得了显著进展，涵盖从更强的基础能力到更广泛的应用场景。我们在此追踪 MLLM 在这方面的主要发展方向。

粒度支持（Granularity Support）为促进智能体与用户之间更精细的交互，研究人员开发了在输入和输出层面支持更细粒度的 MLLM。在输入端，支持用户提示中更精细控制的模型逐步发展，从整图 → 区域 [28]、[138]、[139] → 甚至像素级别 [29]、[140]、[141]。

具体而言，Shikra [28] 支持区域级输入与理解，用户可通过自然语言形式的边界框指代特定区域，从而更灵活地与助手交互。
Ferret [141] 更进一步，通过设计一种混合表征方案，支持更灵活的指代方式，包括点、框和草图等多种提示形式。
类似地，Osprey [29] 利用分割模型 [9] 支持点输入，借助预训练分割模型的强大能力，用户只需单击即可指定某个实体或其部分。

在输出端，随着输入支持的发展，模型的“接地”（grounding）能力也同步提升：

Shikra [28] 支持在回答中通过边界框标注实现图像接地，从而获得更高精度和更精细的指代体验；
LISA [142] 进一步支持掩码级（mask-level）的理解与推理，使像素级接地成为可能。

模态支持（Modality Support）增强对多模态的支持是 MLLM 研究的一个趋势。一方面，研究者探索让 MLLM 支持更多类型的输入模态，如 3D 点云 [41]、[143]–[145]；另一方面，MLLM 也被扩展至能生成更多类型的输出模态，如图像 [32]、[146]–[148]、音频 [32]、[147]、[149]、[150] 和视频 [32]、[151]。例如，NExT-GPT [32] 提出一个支持混合模态输入与输出的框架，在 MLLM 基础上附加扩散模型 [152]、[153]，实现文本、图像、音频和视频的任意组合。该框架采用编码器-解码器架构，并以 LLM 作为理解和推理的核心枢纽。

语言支持（Language Support）当前模型主要为单语（尤其是英语），可能是因为高质量的非英语训练语料稀缺。一些工作致力于开发多语言模型，以覆盖更广泛的用户群体。

VisCPM [33] 通过设计多阶段训练方案，将模型能力迁移至多语言环境：以英语为枢纽语言（因其语料丰富），利用预训练的双语 LLM，在指令微调阶段加入翻译样本，将多模态能力迁移到中文。
类似地，Qwen-VL [34] 基于双语 LLM Qwen [58] 开发，支持中英双语。在预训练阶段，中文数据被混入训练语料以保留双语能力，占总数据量的 22.7%。

场景/任务扩展（Scenario/Task Extension）除开发通用助手外，一些研究聚焦于需考虑实际条件的特定场景，另一些则将 MLLM 扩展至具备专业能力的下游任务。

一个典型趋势是将 MLLM 适配到更具体的现实场景：

MobileVLM [63] 探索开发小型 MLLM 变体，适用于资源受限环境，采用小规模 LLM 和量化技术以加速移动端部署。
其他工作开发能与现实世界交互的智能体，例如专为图形用户界面（GUI）设计的友好助手，如 CogAgent [44]、AppAgent [43] 和 Mobile-Agent [45]。这些助手擅长规划并逐步引导用户完成指定任务，成为人机交互中的得力代理。

另一方向是为 MLLM 注入特定领域技能，以解决不同领域的任务，例如文档理解[38]、[39]、[156]、[157] 和医疗领域[35]、[36]、[37]：

在文档理解方面，mPLUG-DocOwl [38] 利用多种文档级数据进行微调，提升了无需 OCR 的文档理解能力；
TextMonkey [39] 整合多项文档理解相关任务以提升模型性能，除常规文档图像和场景文本数据集外，还引入位置相关任务，以减少幻觉并帮助模型学会基于视觉信息生成接地的回答。

MLLM 也可通过注入医学知识扩展至医疗领域。例如，LLaVA-Med [158] 在基础 LLaVA [20] 中注入医学知识，开发出专精于医学图像理解和问答的助手。

6 多模态幻觉

多模态幻觉（Multimodal hallucination）是指 MLLM 生成的回答与图像内容不一致的现象 [77]。作为一个基础且重要的问题，该问题已受到越来越多的关注。本节将简要介绍相关概念及研究进展。

6.1 预备知识

当前关于多模态幻觉的研究可进一步分为三类 [159]：

存在性幻觉（Existence Hallucination）是最基本的形式，指模型错误地声称图像中存在某些实际上并不存在的物体。
属性幻觉（Attribute Hallucination）指对某些物体的属性描述错误，例如未能正确识别狗的颜色。这类幻觉通常与存在性幻觉相关，因为属性描述应基于图像中实际存在的物体。
关系幻觉（Relationship Hallucination）是一种更复杂的类型，同样以物体的存在为前提，指对物体之间关系（如相对位置或交互）的错误描述。

接下来，我们首先介绍一些具体的评估方法（§6.2），这些方法有助于衡量缓解幻觉方法的性能（§6.3）。随后，我们将根据主要类别，详细讨论当前减少幻觉的方法。

6.2 评估方法

CHAIR [160]是一种早期用于评估开放式图像描述中幻觉程度的指标。该指标衡量所有提及物体中包含幻觉物体的句子比例，或幻觉物体在全部提及物体中的占比。

相比之下，POPE [132]是一种评估封闭集选择的方案。具体而言，它构建多个二元选择提示，每个提示询问图像中是否存在某个特定物体。该方法还涵盖更具挑战性的设置，以评估 MLLM 的鲁棒性，并考虑了数据统计特性。最终评估采用简单的关键词检测机制——即通过识别回答中的“yes/no”关键词——将开放式回答转换为封闭式的二元选择。

采用类似评估思路，MME [123]提供了更全面的评估，涵盖存在性、数量、位置和颜色等方面，如 [77] 中所示。

与以往依赖匹配机制来检测和判定幻觉的方法不同，HaELM [161]提出使用纯文本 LLM 作为评判者，自动判断 MLLM 生成的描述是否与参考描述一致。然而，鉴于纯文本 LLM 只能访问有限的图像上下文且依赖参考标注，Woodpecker [77]改用 GPT-4V 直接基于图像对模型回答进行评估。

FaithScore [162]是一种更细粒度的指标，其流程将描述性子句分解，并对每个子句单独评估。

基于前述研究，AMBER [163]是一个无需 LLM 的基准测试，同时包含判别式任务和生成式任务，并涵盖上述三种可能的幻觉类型（见 §6.1）。

6.3 缓解方法

根据高层思路，当前的方法大致可分为三类：预修正（pre-correction）、过程内修正（in-process-correction）和后修正（post-correction）。

预修正（Pre-correction）缓解幻觉的一种直观且直接的解决方案是收集专门的数据（例如负样本数据），并利用这些数据进行微调，从而获得生成更少幻觉回答的模型。

LRV-Instruction [164]引入了一个视觉指令微调数据集。除常见的正向指令外，该数据集还精心设计了不同语义层级的负向指令，以鼓励模型生成忠实于图像内容的回答。
LLaVA-RLHF [112]收集人类偏好对，并采用强化学习技术对模型进行微调，使模型更倾向于生成幻觉更少的回答。

过程内修正（In-process-correction）另一类方法是在架构设计或特征表征层面进行改进。这些工作试图探究幻觉产生的原因，并在生成过程中设计相应的补救措施以减轻幻觉。

HallE-Switch [159]对物体存在性幻觉的可能因素进行了实证分析，并假设存在性幻觉源于视觉编码器未能接地的物体，而这些物体实际上是基于 LLM 中嵌入的知识推断出来的。基于这一假设，该方法引入了一个连续控制因子及相应的训练方案，以在推理过程中控制模型输出的“想象力”程度。
VCD [165]认为物体幻觉主要源于两个原因：训练语料中的统计偏差和 LLM 中嵌入的强语言先验。作者注意到，当向图像注入噪声时，MLLM 倾向于依赖语言先验而非图像内容生成回答，从而导致幻觉。相应地，该工作设计了一种“先放大再对比”（amplify-then-contrast）的解码方案，以抵消这种错误偏差。
HACL [166]研究了视觉与语言的嵌入空间。基于观察结果，该方法设计了一种对比学习方案：将配对的跨模态表征拉近，同时将非幻觉文本表征与幻觉文本表征推开。

后修正（Post-correction）与前述范式不同，后修正以事后补救的方式缓解幻觉，在输出生成之后对其进行修正。

Woodpecker [77]是一个无需训练的通用幻觉修正框架。具体而言，该方法引入专家模型以补充图像的上下文信息，并构建一个多步骤流水线逐步修正幻觉。该方法具有可解释性，因为每一步的中间结果均可检查，且物体均在图像中实现接地。
另一种方法LURE [167]训练了一个专用的修正器（revisor），用于遮蔽描述中不确定性较高的物体，并重新生成回答。

7 扩展技术

7.1 多模态上下文学习（Multimodal In-Context Learning, M-ICL）

上下文学习（ICL）是 LLM 的一项重要涌现能力。ICL 具有两个显著优点：(1) 与传统监督学习范式（从大量数据中学习隐式模式）不同，ICL 的核心在于类比学习（learning from analogy）[168]。具体而言，在 ICL 设置下，LLM 从少量示例（以及可选的指令）中学习，并外推至新问题，从而以少样本方式解决复杂且未见过的任务 [22]、[169]、[170]。(2) ICL 通常以无需训练（training-free）的方式实现 [168]，因此可在推理阶段灵活集成到不同框架中。

与 ICL 密切相关的技术是指令微调（见 §3.2），实证表明指令微调可增强模型的 ICL 能力 [19]。

在 MLLM 的背景下，ICL 已被扩展至更多模态，形成了多模态上下文学习（Multimodal ICL, M-ICL）。基于 §3.2 中的设置，在推理时，M-ICL 可通过向原始样本添加一个演示集（demonstration set，即一组上下文内样本）来实现。此时，模板可如表9所示进行扩展。需要注意的是，此处仅列出两个上下文示例用于说明，但示例的数量和顺序可灵活调整。事实上，模型通常对演示的排列方式较为敏感 [168]、[171]。

7.1.1 ICL 能力的提升

近期，越来越多的工作聚焦于在各种场景下提升 ICL 性能。本节追踪该领域的发展并总结相关工作。

MIMIC-IT [172]将上下文学习与指令微调结合，构建了一个包含多模态上下文的指令数据集。在该数据集上进行指令微调的模型在图像描述任务中展现出更优的少样本性能。
Emu [173]延续 Flamingo [74] 的思路，通过在模型生成和相应训练语料中引入额外模态进行扩展。借助引入的视觉解码器（即 Stable Diffusion），模型从额外的视觉监督中学习，并支持更灵活的输出格式和上下文推理。具体而言，除纯文本回答外，模型还能以图像形式给出响应。
Sheng 等人 [174]采用类似思路，尝试将输出模态扩展至文本和图像。与采用专用图像编码器不同，该工作采用统一的量化方案和共享嵌入层。

其他一些工作则探索在特定设置下提升少样本学习性能：

Link-context learning [175]聚焦于强化图像-标签对之间的因果联系，通过构建正负图像-描述对，设计了一种对比训练方案。
MMICL [176]旨在增强模型对多个相关图像的推理能力。为加强图像与文本的关联，该工作提出一种上下文方案，将交错的图像-文本数据转换为统一格式。
Jeong [177]发现，当插入少量不连贯的图像/文本作为噪声时，MLLM 可能被误导，生成与上下文不一致的回答。基于此观察，该工作提出一种预过滤方法，以移除无关上下文，促进更连贯的回答。

7.1.2 应用

在多模态应用中，M-ICL 主要用于两类场景：(1) 解决各类视觉推理任务 [22]、[74]、[178]–[180]；(2) 教会 LLM 使用外部工具 [169]、[170]、[181]。

前者通常涉及从少量任务特定示例中学习，并泛化到新的但相似的问题。通过指令和演示提供的信息，LLM 能理解任务目标和输出模板，最终生成预期答案。相比之下，工具使用的示例更为细粒度，通常包含一系列可顺序执行以完成任务的步骤。因此，第二种场景与思维链（CoT，见 §7.2）密切相关。

7.2 多模态思维链（Multimodal Chain of Thought, M-CoT）

正如开创性工作 [8] 所指出，CoT 是“一系列中间推理步骤”，已被证明在复杂推理任务中有效 [8]、[182]、[183]。CoT 的核心思想是提示 LLM 不仅输出最终答案，还输出通向答案的推理过程，模拟人类的认知过程。

受 NLP 中 CoT 成功的启发，多项工作 [184]–[187] 提出将单模态 CoT 扩展至多模态思维链（M-CoT）。我们首先介绍获取 M-CoT 能力的不同范式（§7.2.1），随后详细阐述 M-CoT 的具体方面，包括链式结构（§7.2.2）和生成模式（§7.2.3）。

7.2.1 学习范式

学习范式也是值得研究的一个方面。获取 M-CoT 能力大致有三种方式：微调、少样本学习和零样本学习（均无需额外训练）。这三种方式对样本量的需求依次递减。

直观上，微调方法通常需要构建特定的 M-CoT 学习数据集。例如：

Lu 等人 [116] 构建了科学问答数据集 ScienceQA，其中包含讲解和解释，可作为 CoT 推理的学习来源，并在该数据集上微调模型；
Multimodal-CoT [185] 同样使用 ScienceQA 基准，但以两步方式生成输出：先生成推理步骤（rationale），再基于 rationale 生成最终答案；
CoT-PT [187] 通过提示微调与步骤特定的视觉偏置相结合，学习隐式的推理链。

与微调相比，少样本/零样本学习计算效率更高。两者的主要区别在于：少样本学习通常需要手工构建一些上下文示例，使模型更容易学会逐步推理；而零样本学习则无需任何特定示例。在此情况下，模型通过提示设计好的指令（如 “Let’s think frame by frame” 或 “What happened between these two keyframes” [184]、[186]）利用内嵌知识和推理能力，无需显式指导。类似地，一些工作 [22]、[188] 通过任务和工具使用的描述提示模型，将复杂任务分解为子任务。

7.2.2 链式结构

推理链的结构和长度是两个关键方面。

在结构上，现有方法可分为单链树形链。单链推理是各类方法中广泛采用的范式 [116]、[185]，其逐步推理过程形成单一的“问题-推理-答案”链。近期，一些方法探索使用更复杂的树形链进行推理：DDCoT [189] 将问题分解为多个子问题，每个子问题由 LLM 自身或视觉专家求解以生成推理步骤，随后 LLM 聚合并推理这些步骤以形成最终答案。
在长度上，可分为自适应预定义两种形式。前者要求 LLM 自行决定何时终止推理链 [22]、[116]、[169]、[170]、[185]、[188]；后者则在预设长度处停止推理链 [79]、[184]、[186]、[187]。

7.2.3 生成模式

如何构建推理链是一个值得研究的问题。我们将现有工作归纳为两类：(1)填空式模式（infilling-based pattern）：要求根据上下文（前序和后序步骤）推断中间步骤，以填补逻辑空白 [184]、[186]；(2)预测式模式（predicting-based pattern）：要求在给定条件（如指令和先前推理历史）下扩展推理链 [22]、[116]、[169]、[170]、[185]、[188]。

这两类模式均要求生成的步骤保持一致性和正确性。

7.3 大语言模型辅助的视觉推理（LLM-Aided Visual Reasoning） 7.3.1 引言

受工具增强型大语言模型（tool-augmented LLMs）成功经验的启发 [190]–[193]，一些研究探索了在视觉推理任务中调用外部工具[22]、[107]、[169]、[170] 或视觉基础模型[22]、[79]、[80]、[188]、[194]–[196] 的可能性。这些工作将 LLM 视为具有不同角色的助手，构建了面向特定任务的 [79]、[197]、[198] 或通用目的的 [22]、[169]、[170]、[181]、[188] 视觉推理系统。

与传统视觉推理模型 [199]–[201] 相比，这些方法展现出若干优势：
(1)强大的泛化能力：得益于从大规模预训练中获得的丰富开放世界知识，这些系统能轻松泛化到未见过的物体或概念，并在零样本/少样本设置下表现出色 [169]、[170]、[195]、[197]、[198]、[202]；
(2)涌现能力：借助 LLM 强大的推理能力，这些系统可执行复杂任务。例如，给定一张图像，MM-ReAct [22] 能解读表层之下的含义，如解释一则网络迷因为何好笑；
(3)更好的交互性与可控性：传统模型通常仅支持有限的控制机制，且往往需要昂贵的人工标注数据集 [203]、[204]；相比之下，基于 LLM 的系统能在用户友好的界面中实现精细控制（如点击操作和自然语言查询）[79]。

本部分首先介绍构建 LLM 辅助视觉推理系统所采用的不同训练范式（§7.3.2），随后深入探讨 LLM 在这些系统中扮演的主要角色（§7.3.3）。

7.3.2 训练范式

根据训练方式，LLM 辅助的视觉推理系统可分为两类：无需训练（training-free）和微调（finetuning）。

无需训练（Training-free）
由于预训练 LLM 中已存储大量先验知识，一种直观且简单的方法是冻结预训练模型，直接通过提示（prompting）让 LLM 满足各种需求。在此设定下，推理系统可进一步分为少样本模型[22]、[169]、[170]、[181] 和零样本模型[79]、[197]。

少样本模型包含少量人工设计的上下文内样本（见 §7.1），用于引导 LLM 生成程序或一系列执行步骤。这些程序或步骤作为指令，供相应的基础模型或外部工具/模块使用。
零样本模型更进一步，直接利用 LLM 的语言/语义知识或推理能力。例如：
- PointCLIP V2 [197] 通过提示 GPT-3 生成包含 3D 语义的描述，以更好地与对应图像对齐；
- 在 CAT [79] 中，LLM 根据用户查询对图像描述进行优化。

微调（Finetuning）
一些工作采用进一步微调，以提升系统在工具使用规划能力[107] 或定位能力[142]、[205] 方面的表现。例如，GPT4Tools [107] 引入了指令微调方法（见 §3.2），相应地收集了一个新的工具相关指令数据集，并用于模型微调。

7.3.3 功能角色

为进一步考察 LLM 在 LLM 辅助视觉推理系统中具体扮演的角色，现有相关工作可分为三类：

LLM 作为控制器（LLM as a Controller）
LLM 作为决策者（LLM as a Decision Maker）
LLM 作为语义优化器（LLM as a Semantics Refiner）

前两种角色与思维链（CoT，见 §7.2）相关。这种划分被频繁采用，是因为复杂任务需要被分解为若干中间的简单步骤。当 LLM 充当控制器时，系统通常在单轮内完成任务；而当 LLM 充当决策者时，则更常采用多轮交互方式。下文将详细阐述 LLM 如何履行这些角色。

LLM 作为控制器（LLM as a Controller）在此情形下，LLM 充当一个中央控制器，其功能包括：(1) 将复杂任务分解为更简单的子任务/步骤；(2) 将这些子任务分配给合适的工具或模块。第一步通常借助 LLM 的 CoT 能力实现。具体而言，通过明确提示 LLM 输出任务规划 [181]，或更直接地输出需调用的模块 [107]、[169]、[170]。例如，VisProg [170] 提示 GPT-3 输出一个视觉程序，其中每一行程序调用一个模块来执行一个子任务。此外，LLM 还需为模块输入输出参数名称。为应对这些复杂要求，通常使用人工设计的上下文示例作为参考 [169]、[170]、[181]。这与推理链的优化密切相关（见 §7.2），更具体地说，属于“由简到繁提示”（least-to-most prompting）[206] 技术：通过该方式，复杂问题被分解为可依次求解的子问题。

LLM 作为决策者（LLM as a Decision Maker）在此情形下，复杂任务以多轮方式求解，通常采用迭代形式 [195]。作为决策者，LLM 通常承担以下职责：(1) 汇总当前上下文与历史信息，并判断当前步骤所获得的信息是否足以回答问题或完成任务；(2) 组织并总结答案，以用户友好的方式呈现。

LLM 作为语义优化器（LLM as a Semantics Refiner）当 LLM 被用作语义优化器时，研究者主要利用其丰富的语言与语义知识。具体而言，LLM 常被指示将信息整合为连贯流畅的自然语言句子 [202]，或根据不同的特定需求生成文本 [79]、[197]、[198]。

8 挑战与未来方向

MLLM 的发展仍处于初级阶段，因此仍有大量改进空间，我们总结如下：

当前 MLLM 在处理长上下文多模态信息方面能力有限。这限制了支持更多模态 token 的高级模型的发展，例如长视频理解、图文交错的长文档处理等。
MLLM 应被升级以遵循更复杂的指令。例如，目前生成高质量问答对数据的主流方法仍是提示闭源的 GPT-4V，因其具备先进的指令跟随能力；而其他模型通常难以达到类似效果。
在 M-ICL 和 M-CoT 等技术上仍有巨大提升空间。当前针对这两种技术的研究仍处于初步阶段，MLLM 相关能力较弱。因此，对底层机制的探索及潜在性能提升前景广阔。
基于 MLLM 开发具身智能体（embodied agents）是一个热门话题。开发能与真实世界交互的此类智能体具有重要意义。这类努力需要模型具备关键能力，包括感知、推理、规划与执行。
安全性问题。与 LLM 类似，MLLM 也可能易受精心设计的攻击 [177]、[207]、[208]。换言之，MLLM 可能被误导输出带有偏见或不期望的回应。因此，提升模型安全性将成为一个重要课题。

9 结论

在本文中，我们对现有的 MLLM 文献进行了综述，并提供了其主要研究方向的全面概览，包括基础方案及相关扩展。此外，我们强调了当前研究中存在的空白领域，并指出了若干有前景的研究方向。我们希望本综述能为读者提供关于 MLLM 当前进展的清晰图景，并激发更多后续研究工作。

原文链接：https://arxiv.org/pdf/2306.13549

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.