麻省理工出品，AI时代人人必修的最佳公开课！聊着聊着，AI突然给你发了张图|模态|点云|新论文

分享至

好的，欢迎大家回来。今天的课，我们先讲大语言模型，再讲多模态大语言模型。

第一部分讨论多模态基础模型的基本知识，包括架构和预训练。然后讲如何将大语言模型适配成多模态模型。前两部分仍局限于输入多模态数据但生成文本的情况。接着我们会探讨如何以多模态数据为条件，生成多模态数据——也就是从文本生成迈向多模态生成，以及一些最新方向。

回顾一下，大语言模型现在通常分三个阶段训练：预训练阶段，在海量数据上按既定方法预测下一个词元；指令微调阶段，提供人类示范的“输入-输出”对，让模型学会遵循指令；当下还有后训练阶段的测试时扩展，让模型思考并搜索多条可能路径来得到正确答案。这些模型的能力包括问答（从互联网或自身权重中检索知识）、开放对话、多语翻译、检索实时新闻和信息，以及解决数学题、写代码这类需要将复杂问题分解、逐步求解并以可解释方式呈现的推理任务。David已经带大家了解了这些最新进展。

现在，我们要从大语言模型走向大型多模态模型。大语言模型本身只接收文本，没有扎根于真实世界的感官信息。最大的区别在输入端：理想情况下，你希望模型能接收视频——比如我们展示过的那些展现人思维活动的视频——来理解社交互动、接收传感器和实体机器人数据，让模型真正扎根、理解真实世界中各种不同的媒介。那么，构建这些大型多模态模型面临哪些挑战？目前进展如何？

这是我所看到的时间线和当前的阶段。我们从多模态模型起步，让模型理解世界，做些简单的分类任务。如今，你当然还能让模型回答分类问题，只需以问题形式提问，并附上可能的答案列表即可。从分类走向更开放的任务，你不仅能问“他是开心、难过还是讽刺”，还可以要求它描述、抓取关系——从单个词的回答走向基于视频的开放式对话。接着有工作进一步扩展到解释：不只是给出答案，还要解释原因。比如你可以追问，为什么这两个人显然在互讽、似乎彼此厌恶，却分明是多年老友？模型可能会解释其中的语言，引用视觉证据和面部表情，甚至回溯之前的片段来佐证自己的判断。我们现在正处于这个“解释”阶段。我们已经从分类、开放式、有来有往的对话，推进到了基于多模态数据的、带有逐步推理的、相当好的解释。

再往前，还有更困难的方向：能否用一段短视频作为提示，进一步生成、动画化一个故事？给一段起始指令，模型可能生成视频、音频、语言，让角色动起来。然后是反事实推理——如果你问“如果这些人来自不同的社会或文化，这种讽刺还会被视为幽默还是冒犯？会冒犯谁？”模型能否生成更多视频和音频来论证？目前，在多模态推理和解释方面已有许多有趣进展，当下也在推进多模态输入和多模态输出，朝着生成和反事实方向迈进。

这是我眼中未来这些模型发展的总示意图：模型接收语言和各种不同模态，学习语言与多模态的表示；基于此，它能继续生成文本，因此语言模型是扎根于多模态的；它还能生成其他模态，并且可以在与人多步对话和交互中完成这一切。今天的课就覆盖这三个部分。第一部分，回顾一些已有工作，介绍如何接收不同模态、学习表示，用基础模型获得丰富表示。第二部分，讨论如何将学到的多模态表示快速适配，使其不仅能用于分类，还能用于语言模型的交互和对话。第三部分，探讨如何超越文本生成，在输入和输出端生成其他模态。

第一部分，学习多模态表示。我们见过用于语言的Transformer，它们同样可以用于视觉。本质上，现在任何东西都可以被分词为离散单元并视为序列。语言是词的序列，图像是图像块的序列，视频是帧的序列，传感器信息也可以看作序列。Transformer通过在这些序列元素上学习自注意力，来获得信息不断丰富的表示。多模态Transformer自然成为许多此类模型的骨干。与单模态Transformer最大的区别在于，查询和键来自不同模态。查询可能来自语言，键来自非语言模态（如声音特征、视觉特征）。维度必须统一，因为你需要把它们视为同一个底层多模态空间，在这个空间里衡量对齐和相似度，而这只有在嵌入空间相同时才可能实现。Wq将语言映射到该空间，Wk将非语言信息映射到该空间。这样你就能得到一个3×4的交叉注意力矩阵——不只是词与词之间，而是词与非语言表达之间。它不只是关注同一时刻的表达，也可以关注更早或更晚时刻的表达。

对齐本身不是唯一目标。真正目的是利用这种对齐来学习更好的表示。用这个加权平均得到的新多模态表示，就可以用来做推理，比如预测讽刺。这种从纯语言Transformer扩展而来的多模态版本，几乎被所有基础模型采用。

最初，人们用数据从头训练Transformer，后来开始预训练。常见做法是：对图像序列和词序列，先在每个模态内应用Transformer，然后应用跨模态Transformer，让语言关注视觉，视觉关注语言，通常双向都做。经过多层之后，语言关注了视觉，视觉关注了语言，得到两组非对称的多模态表示——这很有用，因为视觉可能需要密集关注图像的很多区域，而语言因词少而关注更稀疏。所以双向独立获得非对称表示很重要。

后来人们开始预训练这些Transformer。用大规模图文数据，做各种预测任务，基本都是自监督或无监督的，不需要人类标注。可以做掩码语言建模：遮住一些词，用周围词和图像区域来预测被遮住的词，遮得越多，越迫使模型从视觉翻译信息。也可以做掩码区域建模：遮住图像某些部分，用其余图像区域和文字描述来预测被遮住的部分。这是在更细粒度层面的。还有更全局的层面：用整张图像（所有图像块）和整段文本（整串词）做对比学习。整张图像对应这段描述，而与其他描述不同。人们探索了很多目标函数，有基于视觉和语言的细粒度（词级别、小图像区域级别）的，也有全局的（整体图像与整体描述匹配）。

这些模型显示，部分注意力和对齐分数具有一定可解释性。比如从单词“花”出发的交叉注意力，确实高亮显示了花所在的区域；“墙”的注意力也高亮显示了墙的图像块。这并不新鲜，我们见过语言Transformer、视觉Transformer、多模态Transformer及其不同的预训练方式，这里只是回顾。

接下来，你需要将这些表示适配为大语言模型的输入，这样才能灵活地对多模态上下文进行问答。怎么做呢？一个关键思路是“适配”。大多数时候，大语言模型规模巨大，理想情况下你希望将其冻结，不用更新太多参数。你可以对任何模态的数据定义一个适配器。比如一张图像，通过预训练的CNN或视觉Transformer得到特征嵌入，然后定义一个适配器——它是一个很小的变换，输入图像特征，输出与语言模型词元嵌入维度相同的东西。把图像特征适配到冻结大语言模型的输入空间后，你可以将它作为前缀，放在词嵌入之前拼接起来，一起送入预训练模型。这样模型就能在上下文中同时理解被适配为词元空间的图像特征和实际文本的词嵌入。

这个模型怎么训练？唯一需要训练的就是适配器。适配器可以非常小，甚至一个简单的线性变换就足够了。视觉模型可训练也可冻结，语言模型通常冻结。训练时，给它成对的图像和文字描述，让它以前文（适配后的图像特征和已预测出的词）为条件，自回归地预测序列中的下一个词。训练完成后，你可以做很多事：给它一张新图像，问它是什么颜色，它会给出正确答案——尽管它从未见过图像和问题的组合，只见过文本。如果零样本效果不够好，还可以给它单样本示例，让它据此泛化。

这就是2021年Google DeepMind的工作。他们进一步扩大规模，在2022年推出了Flamingo模型，同样基于冻结大语言模型加适配器的方法。扩大规模后，模型可以进行更长篇幅的对话。给它一张图像，经过图像嵌入和适配器进入语言模型，你就能跟它聊月球上的两只泰迪熊，或者聊不同风格的芒果。大家可能在社交媒体上见过早期视觉模型的一些案例：一张苹果的照片，上面贴了张写有“iPod”的贴纸，视觉模型就把它分类为iPod。而Flamingo能正确识别出上面贴了张贴纸，且贴纸上写的是iPod——不过对这些病毒式传播的失败案例被“修复”，也不必过度解读，因为大公司很可能看到推特上的搞笑例子，就把它们加进训练数据了。

如今的GPT-4，没人真正知道它的运作方式。一些人做了小型开源版本，发现适配器层非常通用：图像经过冻结的视觉Transformer（Q-Former），再加上一个线性适配层，将图像特征映射到开源指令跟随语言模型的词元嵌入维度，唯一训练的就是这个线性层。

现在这些模型通常分阶段训练。第一阶段是对齐：用大量图像及其期望描述，训练模型看图说话。第二阶段是指令微调：不仅描述图像，而是给模型图像和人类标注的指令，以及人类写出的理想回答，用这些数据做监督学习，预测理想回答中的每个词，只训练线性层。这是2023年的工作，当时还没有做第三阶段的后训练人类反馈。第一阶段只是描述图像，第二阶段更开放，比如评价一个Logo，由人类标注他们感兴趣的任务和理想回答。

人们已经把这种适配器模型扩展到了更多模态。LLaMA-Adapter就是一个很好的开源社区项目，基于LLaMA构建。它包含一系列针对不同模态的适配器：图像、3D点云（经过点云表示模型编码后适配到LLaMA输入空间）、多种语言等。比如给一个3D点云和指令，就能生成对应的图像。因为他们在输出端还接入了文本到图像的扩散模型。

数据方面，预训练数据集规模呈指数级增长：从YFCC到LAION-400M，再到LAION-5B，最近开源的是DataComp，有120亿个数据点。另一个趋势是，以前预训练只是单张图像配单个描述，现在越来越多使用“图文交错”数据——图像、描述、图像、描述自然交替，更贴近真实世界的交流方式，这带来了新的能力。同时，近期工作转向更高数据质量而非数量，意识到海量数据中很多并不好用，有些甚至包含不当内容。现在趋势是过滤出规模较小但质量更高的数据集，如DataLLM和DCLM，它们也是图文交错的。

指令微调数据集规模更小、更分散。这个阶段的格式不再是图文互相描述，而是图像加上人类写的指令和理想回答。GPT-4的指令微调数据大约5000条，是最早的例子之一。LLaVA、InstructBLIP是其他流行的视觉指令微调数据集。它们的量级在数十万，而非预训练阶段的数十亿。这些是通用领域的，当然还有很多针对特定领域的指令微调数据集，比如David两周前展示的大规模医学影像和医学问题指令微调数据，以及LLaVA-Med和Biomed等医学领域数据集。

第三部分。我们讲了如何用多模态数据学习表示，以及如何快速适配进大语言模型。下一步是，除了生成文本，还要生成更多模态的数据。比如根据描述生成图像、从点云生成图像、高亮相关片段或检索证据——这些都是视觉和音频生成问题。近期趋势正是从纯文本生成走向多模态生成。你们可能见过文本到图像模型，比如Stable Diffusion，我们大约两周后会详细讲。今天先假定大家已有基本了解，重点讲如何将它们整合进多模态模型。

快速回顾：用海量图像训练出优秀的图像编码器和解码器。如今最好的图像编码器大多基于CLIP，它在训练时就用对比学习让图像表示与语言表示很接近，这极大地方便了后续工作。大致流程是：CLIP编码图像，语言模型编码文本，然后预测CLIP图像嵌入，最后用扩散模型或流匹配模型逐像素生成图像。

怎么把文本到图像模型整合进多模态大模型管线？一个创新是图文交错训练。你看到图像，它通过视觉编码器和适配层，然后是一段描述，接着更多图像、更多描述……所有这些交错在一起，构成完整的输入序列，送入语言模型。语言模型生成后续词元来完成故事，同时生成的嵌入可以与图像库中的嵌入计算相似度，从而检索出最匹配的图像，实现视觉上的延续。

部署后，你可以用语言和视觉与模型多次交互，模型也能生成语言和视觉，并保持连续性。比如对话中随时要求“给我看看插画”或“再给我看张照片”，模型就能检索或生成相应的图像。

这种检索方式只在离散的图像库中工作，优点是一定能生成真实的图像，缺点是受限于图像库且有时较慢。于是自然延伸到逐像素图像生成。同样，图像通过视觉适配器，语言通过描述，图文交错输入，然后由一个决策模块决定是检索还是生成。有时检索更好，有时生成更好。例如刚出炉的饼干怎么在农贸市场展示，检索模型给了码放紧凑的样式，生成模型给了更松散的摆盘样式。

一个常用的数据集叫视觉叙事，是大型图文交错数据集，故事由文本和图像交替组成，用于训练和评估这些模型。

最新进展方面。我们花了很多时间讲适配器——冻结大语言模型加小型适配器来快速获得多模态能力。但上周有人可能看到了LLaMA-4，它宣称自己是“原生多模态模型”，这在业界引发了一场争论。所谓原生，就是不仅从一个预训练的大语言模型开始并适配多模态信息，而是从零开始，用随机初始化的参数，同时训练语言、图像、视频等多种模态。这当然只有大公司才有资源做。LLaMA-4对此大加渲染，其最大模型达到2万亿参数。它的优势在于，如果承担得起成本，就能从图像和视频中发现更多信息，而我们已经几乎穷尽了训练这些模型所用的文本数据。

对心理学和生物学背景的人来说，这种方式也很有吸引力，因为这更接近人类和儿童的学习方式——先学习视觉、听觉和运动感知，然后才学习语言。但结果目前并不理想。我们也不知道GPT-4o和Gemini具体如何训练，很可能是预训练、适配和部分原生训练的混合。

非原生多模态大模型采用“解耦”架构：大语言模型和图像编码器都是预训练好的，可以冻结，也可以微调。这种架构非常模块化、即插即用，尤其适合在论文中做实验或扩展到更多模态。原生模型则直接在多模态输入上训练。有些用晚期融合（先有好的图像特征，再与文本联合训练），有些用早期融合（甚至不需要单独训练图像编码器，直接对像素或图像块进行嵌入，送入语言模型）。图像模型在什么层级进入语言模型，这本身也是个系统工程问题。

Meta发布LLaMA-4时也发布了这些原生多模态模型的扩展定律。我们几周前读过一篇关于混合模态生成模型扩展定律的论文，也是出自Meta。那篇论文研究的就是原生多模态模型——文本、语音，有的从零训文本，有的从零训语音，有的从零联合训练。他们的最新结论是：早期融合在小规模时略有优势，但到大规模时不同架构表现相似；原生多模态模型的扩展趋势与单模态大语言模型相似，只是扩展指数差一个常数因子——这或许是好事，意味着关于扩展的所有工作可能以常数倍换算到原生多模态模型。而适配型多模态模型的扩展定律，目前还缺乏系统研究，因为语言部分和适配部分的扩展可能不是单一多项式关系。

LLaMA-4还率先在多模态模型中公开使用了混合专家架构，这对原生多模态模型在相同推理成本下带来了显著增益。他们的消融实验发现，为不同模态设计独立的专家反而不如模态无关的专家设计。我们也做了相关研究，出发点正是模态交互的不同类型：有时信息是共同且冗余的，有时有很多协同。预训练的视频大模型在信息相似时表现尚可，但在需要捕获涌现出的新协同信息时很吃力。因此我们设计了基于信息来源的路由机制，不同专家负责不同交互类型，还有一个通用专家。

在多模态时间序列大模型方面也有不少有趣工作，基本都是冻结预训练大语言模型，加上传感器编码模型和适配器。任务包括传感器分类，甚至可以“问”模型下一个传感器值是多少，模型会输出类似“0.6”这样的词元化数字。但目前这些模型的表现还很值得商榷。有研究发现，去掉一些复杂的注意力层，甚至把冻结的大语言模型替换成简单的注意力层，性能变化微乎其微，这说明具体什么组件在起作用还很不清楚。时间序列的表示方式也在探索中：有人设计专门的时间序列表示模型，有人把序列画成图像输入，效果意外地好，也有人直接以数字文本形式输入，这在机器人领域较常见。

总结一下。我们回顾了多模态基础模型及其架构与预训练方法的演变。当前流行的方法是通过训练模块化的适配器层，将冻结的大语言模型适配为多模态版本。另一个大趋势是，从纯文本生成走向多模态输入加多模态输出，实现真正的多模态交互。此外还有原生多模态模型、多模态混合专家、图文交错训练等方向。别忘了推进项目，提交阅读作业。谢谢大家。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.