人工智能通识课：多模态大模型|信号|新论文

分享至

多模态大模型（Multimodal Large Model，MLM）是能够处理多种信息形式的人工智能模型，典型模态包括文本、图像、语音和视频等。它不只处理文字，还可以理解图片、分析声音、识别视频，并在不同模态之间建立联系。

其中，多模态大语言模型（Multimodal Large Language Model，MLLM）是较常见的一类，通常以大语言模型为核心，扩展图像、语音、视频等输入输出能力，使用户可以用自然语言完成跨模态理解、推理和生成任务。

严格地说，MLLM 不等同于所有多模态大模型，而是其中以语言模型为核心的一类。

如果说大语言模型让人工智能具备了以自然语言为核心的人机交互能力，那么多模态大模型则进一步把这种能力扩展到更接近真实世界的复杂信息环境中。

真实世界并不是只由文字组成的：医生看影像，学生看图表，司机看道路，工程师看图纸，用户上传截图或视频提出问题。

多模态大模型的目标，就是让机器能够综合理解这些不同来源的信息，并用自然语言、图像、语音或行动结果进行反馈。

图 1：多模态大模型在人工智能体系中的位置

多模态大模型并不只是简单调用几个独立模型，而是通过模态编码、跨模态对齐、连接模块或统一 Token 化等方式，使不同模态的信息能够进入同一任务系统，被共同理解、关联、推理和生成。

从 CLIP 的图文对齐，到 BLIP-2、LLaVA 等视觉语言模型，再到支持图像、语音和视频交互的通用模型，多模态大模型已经逐渐从“图文匹配”走向“跨模态理解、推理与生成”。

一、什么是多模态大模型

模态（Modality）是信息存在和表达的不同形式。对人工智能来说，最典型的模态是文本、图像、语音和视频。

文本适合表达概念、知识、逻辑和规则；

图像适合表达空间结构、颜色、形状、位置和视觉细节；

语音不仅包含语言内容，还包含语速、语调、停顿和情绪；

视频则在图像和音频的基础上增加了时间变化、动作过程和事件顺序。

多模态大模型，就是能够同时处理这些不同模态信息的人工智能模型。它可以把文字、图片、声音、视频等信息转换为模型能够计算的表示，并在不同模态之间建立联系。

例如：

• 用户上传一道几何题图片，模型可以识别题目、图形和条件，并用文字讲解解题思路

• 用户上传一张软件报错截图，模型可以读取界面文字，并分析可能原因

• 用户上传一张统计图表，模型可以解释坐标轴、趋势和异常变化

• 用户用语音提出问题，模型可以听懂指令并用语音或文字回答

• 用户上传一段视频，模型可以总结其中的动作、事件和场景变化

需要注意的是，“多模态大模型”是较宽泛的概念。它可以包括图文理解模型、文生图模型、语音模型、视频生成模型、机器人感知模型等。

而“多模态大语言模型”更强调以大语言模型为核心，用自然语言作为统一交互接口，连接图像、语音、视频等模态能力。

在相关术语中，还常见以下概念：

• 视觉语言模型（Vision-Language Model，VLM）

主要处理图像和文本之间的理解、检索和生成任务。

• 大视觉语言模型（Large Vision-Language Model，LVLM）

规模更大、能力更强的视觉语言模型。

• 多模态大语言模型（MLLM）

通常以 LLM 为核心，扩展视觉、语音、视频等多模态能力。

• 多模态大模型（MLM）

更宽泛，可指各种面向多模态信息处理的大规模基础模型。

因此，本文在讨论通用概念时使用“多模态大模型”，在强调以语言模型为核心的图文、语音、视频交互系统时使用“多模态大语言模型”。

二、从单模态模型到多模态大模型

多模态大模型并不是突然出现的，而是人工智能从单一任务、单一模态逐步走向统一交互系统的结果。

1、单模态模型：一次只处理一种信息

早期许多人工智能模型主要面向单一模态。

例如，文本分类模型处理文章和评论，图像分类模型识别图片中的物体，语音识别模型把声音转换成文字。

这类模型在特定任务上很有效，但能力边界比较清楚：文本模型看不懂图片，图像模型不能理解复杂语言指令，语音模型也无法直接分析图表或视频。

2、双模态模型：建立两种模态之间的联系

随着深度学习的发展，研究者开始探索图像与文本之间的关系。

例如，模型可以根据图片生成文字描述，也可以根据文字检索相关图片。

CLIP 的代表性思想，就是通过大量图文对进行对比学习，让匹配的图像和文字在向量空间中更接近，不匹配的图像和文字距离更远。这使模型能够学习视觉概念和语言概念之间的对应关系。

视觉语言模型正是在这一方向上发展起来的。它们使模型不再只是“看图分类”，而是能够回答与图片有关的问题，解释图片内容，甚至按照语言指令分析视觉信息。

3、多模态大模型：统一处理多种信息

多模态大模型进一步扩展了信息处理范围。它不仅处理文本和图像，也可能处理语音、视频、文档、表格、网页、传感器信号和工具结果。

图 2：从单模态模型到多模态大模型

更重要的是，它通常以自然语言作为交互接口。用户可以用普通语言提出要求，模型再综合分析图像、文字、声音或视频，并生成可理解的回答。

因此，多模态大模型可以理解为大语言模型能力的扩展：语言仍然是重要接口，但模型的感知范围不再局限于文字。

三、什么是模态

模态（Modality）是信息存在和表达的不同形式。

人类认识世界本身就是多模态的：我们通过眼睛获得视觉信息，通过耳朵获得声音信息，通过语言表达想法，通过动作与环境交互。

在人工智能中，最常见的模态包括文本、图像、语音和视频。

图 3：多模态信息的基本类型

1、文本模态

文本是最常见的信息形式之一，包括文章、问答、代码、网页、书籍、论文、聊天记录、说明书、合同、报告等。

文本模态具有高度抽象性，适合表达知识、逻辑、规则、概念和推理过程。大语言模型主要就是围绕文本模态发展起来的。

2、图像模态

图像包括照片、截图、医学影像、遥感图像、图表、手写内容、设计图、商品图片等。

图像模态具有空间结构，包含颜色、形状、位置、纹理、布局等信息。理解图像，不仅要识别“图中有什么”，还要理解对象之间的位置关系和整体场景。

3、语音与音频模态

语音包含语言内容，也包含语速、语调、音量、停顿和情绪等信息。音频还包括音乐、环境声、机器噪声、动物声音等。

因此，语音理解不只是“把声音转成文字”，还可能涉及说话人状态、情绪线索和环境背景。

4、视频模态

视频可以看作图像序列与音频信息的结合。它不仅包含画面内容，还包含时间变化、动作过程、事件顺序和场景转换。

视频理解比静态图像理解更复杂，因为模型不仅要看懂画面，还要理解“先发生什么，后发生什么”，以及动作之间是否存在因果关系。

5、扩展数据形式

除了文本、图像、语音和视频，表格、代码、文档版面、网页、传感器信号和动作数据也常出现在广义多模态系统中。

不过，这些信息通常具有更强的结构化、程序化或时序特征。例如，代码既是一种文本，也具有严格语法和执行语义；表格既包含文字和数字，也包含行列结构；传感器数据则往往与时间、空间和设备状态有关。

多模态大模型要解决的核心问题，就是如何让这些不同形式的信息进入同一个智能系统，并被统一理解和使用。

四、多模态大模型的基本思想

多模态大模型的基本思想可以概括为：把不同模态的数据转换为模型能够处理的表示，再通过对齐、融合和生成，使模型能够在多种信息之间建立联系。

这一过程可以分为四个关键环节：编码（Encoding）、对齐（Alignment）、融合（Fusion）和生成（Generation）。

图 4：多模态大模型的基本思想：编码、对齐、融合、生成

1、编码：把不同模态转换成向量表示

不同模态的原始形式差异很大。文字是符号序列，图片是像素矩阵，语音是声波信号，视频是随时间变化的图像和声音序列。

模型不能直接“理解”这些原始数据，而是需要先把它们转换为可计算的向量表示。

例如：

• 文本需要被切分为 Token，再转换为文本向量

• 图像需要通过视觉编码器转换为视觉特征

• 音频需要转换为声学特征

• 视频需要转换为包含时间信息的视觉序列特征

编码的作用，就是把不同形式的信息转换为模型可以处理的数学表示。

2、对齐：让不同模态表达同一含义

如果一张图片中有一只猫，文字说明是“一只猫坐在沙发上”，那么模型需要知道这张图片和这句话描述的是同一件事。

所谓跨模态对齐，就是让图像、文本、音频等不同模态中语义相近的内容，在表示空间中靠近。

图文对比学习就是一种重要方法。它的直观目标是：匹配的图像和文字在向量空间中更接近，不匹配的图像和文字距离更远。

3、融合：综合多种信息完成任务

对齐之后，模型还需要把多种模态的信息融合起来。

例如，回答图片问题时，模型既要理解用户的问题，也要理解图片内容，并把二者结合起来生成答案。

分析视频时，模型需要融合画面、声音、字幕和时间顺序。

阅读文档时，模型需要融合文字内容、版面结构、表格和图像。

融合可以发生在不同层面：有的模型先分别编码不同模态，再把特征连接到语言模型；

有的模型在中间层进行跨模态注意力交互；

有的模型采用更统一的 Token 化方式，把文本、图像、音频组织成可进入同一 Transformer 的序列。

4、生成：输出文本、图像、语音或动作结果

多模态大模型不仅能理解输入，也可以生成输出。输出可以是文字回答、图片描述、图像、语音、视频、结构化结果，甚至是工具调用或动作指令。

因此，多模态大模型不只是“看图聊天”，而是正在成为连接感知、语言、生成和行动的重要技术基础。

五、多模态大模型的基本架构

多模态大模型的具体实现很多，但从通识角度看，可以把它理解为几个模块的协同系统：模态编码器（Modality Encoder）、连接器（Connector）或投影层（Projection Layer）、大语言模型核心（LLM Core），以及输出模块（Output Module）。

图 5：多模态大模型的基本结构

1、模态编码器

模态编码器负责把不同类型的数据转换成向量表示。

例如：

• 文本编码器处理文字 Token

• 图像编码器处理图片或图像块

• 音频编码器处理语音或声音频谱

• 视频编码器处理连续帧和时间变化

在视觉语言模型中，常见做法是用视觉编码器提取图像特征，再把视觉特征送入后续模块，与语言信息结合。

2、连接器或投影层

连接器的作用是弥合不同模态之间的表示差异。

图像编码器输出的是视觉特征，大语言模型接收的是语言相关向量，二者并不能天然匹配。因此，需要一个投影层、查询变换器或跨模态适配模块，将视觉特征转换成语言模型可接收的形式。

BLIP-2 使用轻量连接模块连接冻结图像编码器和冻结大语言模型，体现了“冻结大模型 + 轻量连接模块”的一种重要思路。

LLaVA 则展示了视觉编码器与大语言模型结合后，通过视觉指令微调构建视觉语言助手的路线。

3、大语言模型核心

许多多模态大语言模型仍然以大语言模型为核心。原因在于，大语言模型已经具备较强的语言理解、指令遵循、知识组织和文本生成能力。

视觉、音频、视频等模态经过编码和对齐后，可以作为额外上下文进入语言模型，由语言模型完成推理、解释和回答。

4、输出模块

多模态大模型的输出可以是文本，也可以是图像、语音、视频、工具调用或动作计划。

例如：

• 看图问答输出文字答案

• 文生图模型输出图像

• 语音助手输出语音

• 智能体系统输出工具调用

• 机器人系统输出动作计划

5、常见架构路线

从技术路线看，多模态大模型大致可以分为几类。

第一类是编码器—连接器—LLM路线。

这是当前很多多模态大语言模型的常见形式，即用视觉或音频编码器提取特征，再通过连接器送入大语言模型。

第二类是跨模态注意力路线。

不同模态的信息在模型中间层进行交互，模型通过注意力机制学习不同模态之间的关系。

第三类是统一 Token路线。

模型尝试把文本、图像、音频等不同模态都转换为统一的 Token 序列，使它们进入同一模型框架处理。

第四类是多模型工具协作路线。

大语言模型负责理解任务和组织结果，视觉识别、语音识别、图像生成、检索系统等专用工具负责完成具体操作。

这些路线并不是互相排斥的。在真实系统中，它们常常结合使用。

六、跨模态对齐：让图像和文字理解同一件事

跨模态对齐（Cross-modal Alignment）是多模态学习的核心问题之一。它要解决的是：不同模态的信息如何表达同一语义。

例如：

• 图片中有“一只狗在草地上奔跑”

• 文字说明写着“狗正在草地上跑”

• 视频展示了狗从左向右奔跑

• 音频中可能有狗叫声

这些模态形式不同，但都与“狗”“草地”“奔跑”这些语义有关。跨模态对齐的目标，就是让模型知道它们之间的对应关系。

图 6：图文对齐的基本思想

1、图文对比学习

图文对比学习是跨模态对齐的重要方法。其基本思想是：

• 匹配的图像和文字说明应当更接近

• 不匹配的图像和文字说明应当更远离

• 模型通过大量图文对学习视觉概念和语言概念之间的对应关系

这种方法的价值在于，它可以利用互联网上大量“图片—文字说明”数据，而不必完全依赖人工标注的固定类别。

CLIP（Contrastive Language-Image Pre-training，中文常译为“对比语言-图像预训练”）就是这一方向的代表性工作之一。它通过大规模图文对比学习展示了自然语言监督对视觉表征学习的价值，也推动了后续图文检索、零样本分类和视觉语言模型的发展。

2、对齐不等于完全理解

需要注意的是，对齐只是多模态理解的基础，并不等于模型真正具备可靠的视觉推理能力。

模型可能知道“猫”和猫的图片有关，但未必能准确数出图片中有几只猫；

可能能识别图表类型，但未必能正确读取细小数字；

可能能描述场景，但会忽略关键细节。

因此，多模态大模型还需要更复杂的训练任务、指令微调、视觉推理数据和安全评估。

七、多模态大模型能做什么

多模态大模型不是单纯“看图聊天”的工具，而是可以围绕理解、问答、生成、检索和行动完成多种任务。

图 7：多模态大模型主要任务体系图

1、理解：看懂图像、文档、图表、视频和语音

多模态理解任务要求模型根据多种输入信息进行识别、分析和解释。

常见任务包括：

• 图像描述：根据图片生成文字说明

• OCR：识别图片、截图、扫描件中的文字

• 文档理解：理解 PDF、PPT、试卷、合同、网页和教材页面

• 图表分析：读取柱状图、折线图、饼图、散点图中的趋势和比较关系

• 视频理解：分析动作、事件顺序、场景变化和人物互动

• 语音理解：识别语音内容、语调、停顿和部分情绪线索

例如，用户上传一张折线图并问：“哪个月份增长最快？”模型需要识别横轴、纵轴、数据点和变化趋势，再生成解释。

2、问答：根据多模态信息回答问题

视觉问答（Visual Question Answering，VQA）是典型多模态问答任务。模型需要同时理解图片和问题，再生成答案。

图 8：视觉问答 VQA 的工作流程

例如，用户上传一张餐桌图片并问：“桌子上有几杯饮料？”模型需要先识别图片中的杯子，再计数，再用语言回答。

类似地，多模态模型也可以进行文档问答、图表问答、截图问答、视频问答和语音问答。

3、生成：从一种模态生成另一种模态

多模态生成任务包括文生图、图生文、图像编辑、语音生成和视频生成等。

例如：

• 文生图：根据文字提示生成图片

• 图生文：根据图片生成说明、摘要或报告

• 图像编辑：根据自然语言修改图片

• 语音生成：把文本转换为自然语音

• 视频生成：根据提示生成或编辑视频片段

其中，文生图和图像编辑已经广泛用于教学插图、广告设计、创意草图和内容生产。视频生成则更复杂，因为它需要保持时间连续性、角色一致性、动作合理性和场景稳定性。

4、检索：用一种模态查找另一种模态

跨模态检索是指用一种模态查询另一种模态。例如：

• 用文字搜索图片

• 用图片搜索相似商品

• 用截图检索相关文档

• 用语音搜索视频片段

• 用自然语言查询图表或表格

跨模态检索使用户不必准确知道文件名、标签或关键词，而可以用更自然的方式查找信息。

5、行动：连接工具、智能体和机器人

当多模态大模型与工具、环境和执行系统结合时，可以进一步用于智能体和机器人任务。

例如，模型可以看屏幕、读说明、听指令、调用工具，并执行一系列操作。

机器人系统还可能结合摄像头、语音、传感器和动作控制，使模型从“理解信息”进一步走向“辅助行动”。

不过，这类任务对安全性、实时性和可靠性要求更高，不能只依赖模型生成结果。

八、多模态 RAG 与工具增强

在大语言模型中，可以让模型连接外部文本知识库。

在多模态场景中，RAG 也可以扩展为多模态检索增强生成。它不只检索文字，还可以检索图片、表格、图表、PDF 页面、音频片段和视频片段。

图 9：多模态 RAG 与工具增强流程

1、多模态 RAG

一个典型多模态 RAG 系统可以包括以下步骤：

（1）用户提出问题，可能同时上传图片、截图、文档或视频；

（2）系统识别问题涉及的模态类型；

（3）检索器从文本库、图片库、文档库或视频库中找出相关内容；

（4）系统把检索结果转换为模型可处理的上下文；

（5）多模态大模型综合用户问题与检索结果生成回答；

（6）输出答案，并尽可能提供依据或来源。

多模态 RAG 适合企业文档问答、教材辅助学习、工业设备维护、商品客服、合同审阅等场景。

但多模态 RAG 比文本 RAG 更复杂。

图片需要视觉特征检索，文档需要版面解析，视频需要切片和时间定位，表格需要结构化理解。

检索到相关资料并不等于模型一定能正确理解，因此仍然需要来源标注、结果核查和人工审核。

2、工具增强

多模态大模型还可以调用外部工具完成任务。例如：

• 调用 OCR 工具识别图片中文字

• 调用搜索工具获取最新资料

• 调用计算工具处理表格数据

• 调用代码工具生成图表

• 调用图像生成工具生成配图

• 调用数据库查询业务信息

工具增强的核心思想是：让大模型负责理解任务、组织流程和生成解释，让外部工具负责检索、计算、识别、生成和验证。

3、智能体工作流

当模型能够根据目标拆解步骤、选择工具、读取反馈并调整行动时，就形成了更复杂的智能体工作流。

例如，用户要求模型根据一份产品说明书和一组设备照片生成维修建议。系统可能先读取说明书，再分析设备照片，然后检索故障码，最后整理成排查步骤。

这类系统的价值在于处理复杂任务，但也更容易在工具选择、参数设置、结果解释和责任归属上出错。因此，重要应用必须保留日志、权限控制和人工确认机制。

九、如何评估多模态大模型

高质量使用多模态大模型，不能只看它“能不能回答”，还要看它“看得准不准、读得对不对、推理是否可靠、输出是否安全”。

多模态模型的评估通常比纯文本模型更复杂，因为错误可能来自多个环节：视觉识别错误、OCR 错误、图表读数错误、视频时间理解错误、跨模态对齐错误，也可能来自语言生成阶段的幻觉。

1、视觉识别准确性

视觉识别准确性关注模型能否正确识别图片中的对象、属性、数量、位置和关系。

例如，模型是否能准确判断图片中有几个人、物体在哪里、颜色是否正确、人物动作是否符合画面内容。

这类评估对于看图问答、图像描述、工业质检、医学影像辅助阅读等任务很重要。

2、OCR 与文档理解准确性

OCR（Optical Character Recognition，光学字符识别）准确性关注模型能否正确读取图片或文档中的文字。

文档理解还要求模型理解标题、正文、表格、图注、页码、脚注、编号和版面结构之间的关系。

在合同、票据、药品说明、考试题目、财务报表等场景中，OCR 或版面理解错误可能导致严重后果。

3、图表读数与数据理解准确性

图表理解要求模型正确识别坐标轴、单位、图例、数值和趋势。

模型不仅要看懂图表类型，还要避免误读比例尺、单位、颜色含义和数据点位置。对于涉及数字结论的任务，关键数值必须人工复核或使用专门工具验证。

4、视频时间理解能力

视频理解不仅是看懂某一帧，而是理解动作、事件顺序和时间变化。

评估视频理解时，需要关注模型是否能正确识别关键帧、动作开始和结束、事件先后顺序，以及人物或物体之间的因果关系。

5、跨模态一致性

跨模态一致性关注模型能否让不同模态的信息相互匹配。

例如，图片内容是否支持文字回答；图表数据是否支持模型总结；视频画面是否支持模型描述的事件；检索到的文档是否真正回答了用户问题。

这类评估对于多模态 RAG、视觉问答和文档问答尤其重要。

6、生成内容真实性与安全性

多模态生成模型可以生成图片、语音和视频，因此还要评估生成内容是否真实可信、是否侵犯版权、是否可能造成误导、是否涉及隐私和肖像风险。

对于 AI 生成图片、语音和视频，应在需要时标注生成来源，避免造成真实内容与生成内容混淆。

7、高风险场景人工复核

医疗、法律、金融、交通、安防、教育评价等场景对错误容忍度很低。即使模型表现良好，也不能直接替代专业人员判断。

在这些场景中，多模态模型更适合做辅助阅读、信息整理、风险提示和初步分析，最终判断必须由有资质的人承担。

十、能力边界、风险与正确使用

多模态大模型扩展了 AI 的感知与交互能力，但也扩大了错误来源。它不仅可能在语言上出错，还可能在视觉识别、OCR、图表读数、视频时间理解和跨模态推理中出错。

因此，多模态模型的风险治理必须同时关注内容安全、事实准确、隐私保护和模态理解可靠性。

图 10：多模态大模型的能力边界与风险

1、能看图，不等于看得准

视觉幻觉是指模型描述了图片中不存在的内容，或错误判断对象、属性、数量和关系。

例如，图中明明只有两个人，模型却说有三个人；图片中没有文字，模型却编造出文字内容；图片中某个细小区域很关键，模型却直接忽略。

因此，看图任务不能只看回答是否流畅，还要对照原图检查关键细节。

2、能读文字，不等于 OCR 完全可靠

多模态模型可以读取图片中的文字，但在小字、模糊图片、复杂背景、手写文字、倾斜文本和低分辨率截图中容易识别错误。

在合同、票据、药品说明、考试题目等场景中，OCR 错误可能导致严重后果。关键文字和数字必须与原图核对。

3、能读图表，不等于数值一定正确

图表理解要求模型正确识别坐标轴、图例、单位、颜色含义和数据变化。模型如果误读坐标尺度或忽略单位，就可能生成错误分析。

因此，涉及数字结论时，应使用原始数据或专门工具复核，不应只依赖模型的视觉判断。

4、能理解视频，不等于理解完整因果

视频包含时间顺序和动作变化。模型可能看懂某一帧，却误解整个事件过程；也可能忽略关键帧，导致对动作原因和结果判断错误。

因此，视频分析尤其需要关注时间线、关键帧和事件证据。

5、能生成图像，不等于内容真实可信

多模态生成模型可以生成逼真的图片、语音和视频，也可能被滥用于虚假新闻、身份冒充、诈骗、伪造证据和舆论操纵。

因此，生成内容应明确标注来源。涉及人物肖像、新闻事件、公共信息和商业传播时，更要注意真实性、版权和伦理风险。

6、能跨模态推理，不等于推理过程可靠

多模态推理要求模型同时处理图片、文字、图表、语音、视频等多种信息。任何一个环节出错，都可能影响最终结论。

例如，模型先误读图表，再基于错误数据做出流畅解释；或者先识别错图片中的对象，再生成看似合理但完全不符合事实的回答。

因此，复杂任务应要求模型说明依据，并对关键证据进行人工复核。

7、隐私与数据安全风险

图片、音频和视频常常包含个人隐私，例如人脸、车牌、地址、票据、屏幕内容和地理位置。上传这些内容时，需要特别注意数据安全与权限管理。

使用多模态模型时，应避免随意上传：

• 身份证、护照、银行卡等证件图片

• 医疗影像和病历资料

• 企业内部文档、合同和截图

• 含有人脸、住址、车牌和定位信息的照片或视频

• 未授权的课堂、会议、监控或工作场所影像

8、偏见与不公平

视觉和语言数据中都可能包含偏见。模型在识别人、职业、性别、年龄、地域、文化和社会身份相关内容时，可能产生不公平判断。

因此，在涉及人物评价、身份判断、招聘筛选、教育评价、风险判断等场景中，不能把模型输出作为唯一依据。

9、高风险场景不能替代专业判断

在医疗、法律、金融、交通、安防、教育评价等场景中，多模态大模型输出必须经过专业人员复核。模型可以辅助阅读、总结和提示风险，但不能承担最终责任。

尤其是在医学影像、法律证据、交通判断和公共安全等场景中，错误可能带来严重后果。模型应被视为辅助工具，而不是最终裁决者。

十一、如何正确学习和使用多模态大模型

学习多模态大模型，不应只停留在“模型能看图聊天”这一表层现象，而应理解其背后的基本问题：不同模态如何表示，如何对齐，如何融合，如何生成，以及如何验证。

1、先理解模态差异

文本、图像、语音和视频不是同一种数据。文本适合表达抽象概念，图像适合表达空间结构，语音包含语言和情绪，视频包含时间变化。

理解模态差异，是理解多模态大模型的基础。

2、再理解对齐与融合

多模态模型的关键不只是“能输入图片”，而是能把图片内容和语言问题对应起来。

图文对齐、视觉编码器、投影层、跨模态注意力、视觉指令微调等概念，都是围绕这一目标展开的。

3、学会设计多模态提示词

使用多模态模型时，提示词应尽量明确说明：

• 需要模型观察什么

• 应重点关注图片、文字、表格还是图表

• 是否需要逐步分析

• 是否要求引用图中依据

• 输出采用什么格式

• 不确定时是否需要说明不确定性

例如：

“请只根据这张图表回答。先说明横轴和纵轴分别表示什么，再指出最高值和最低值，最后用三句话总结变化趋势。如果图中文字无法识别，请明确说明。”

这个提示词比“分析这张图”更可靠，因为它明确限定了依据、步骤和输出要求。

4、重要任务必须验证

多模态模型输出尤其需要验证。图片、图表、表格和文档中的细节容易出错，因此应养成以下习惯：

• 关键数字要人工复核

• 图中文字要与原图对照

• 医疗、法律、金融内容要请专业人员确认

• 图像生成内容要标注 AI 生成

• 涉及隐私的图片和文件不要随意上传

• 对模型无法确定的内容，不要强迫它给确定答案

5、把多模态模型当作协作工具

多模态大模型最适合承担以下角色：

• 帮助理解复杂图文资料

• 辅助阅读图表、截图和页面

• 生成教学配图和说明

• 辅助整理文档、表格和报告

• 作为无障碍辅助工具

• 作为创意设计和内容生产助手

• 作为智能体系统的感知与语言接口

但它仍然不是全知全能的判断者。真正可靠的应用，需要把模型、外部工具、数据来源和人工审核结合起来。

小结

多模态大模型把 AI 的能力从文本扩展到图像、语音、视频和文档等信息形式。其核心在于模态编码、跨模态对齐、信息融合和多模态生成。正确使用多模态大模型，应理解其能力边界，核查关键证据，保护隐私数据，并在高风险场景中坚持人工复核。

“点赞有美意，赞赏是鼓励”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.