首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源|云计算费用

分享至

MME-Benchmarks团队投稿量子位 | 公众号 QbitAI

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：

1. 评测标准混乱：不同研究选用的评测数据集与指标各不相同，使得模型之间难以公平比较；

2. 混合模态生成能力缺乏评测体系：例如，在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性，但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了U-MLLMs的发展和落地应用，因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify（简称 MME-U）正是为了解决上述问题而提出的，具体贡献如下：

首次提出统一评测框架：MME-U 是第一个涵盖“理解”、“生成”与“统一任务（混合模态生成）”的 benchmark，支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系：

从12个现有数据集中筛选整理，形成10大类任务，包含30个子任务
理解类任务涵盖：单图感知、多图推理、视频理解等；
生成类任务涵盖：文本生成图像、图像编辑、图像转视频等。

统一评测标准：

将理解任务统一转为多选题，使用准确率作为评测指标；
将生成任务的多种指标标准化、归一化，输出统一分数，便于横向比较。

设计五类“统一任务”，考察模型对多模态信息的协同处理能力：

图像编辑与解释：
模型需理解编辑指令并执行；
常识问答生成图像：
模型需根据问答内容生成合适图像；
辅助线任务：
要求模型画出解几何题所需的辅助线并解题；
找不同（SpotDiff）：
在两张图中找并画出差异；
视觉链式推理（Visual CoT）：
边推理边生成下一步图像结果。

实测分析12个主流U-MLLMs表现：包括 Janus-Pro、EMU3、Gemini 2 等，发现它们在多项任务中差异显著，尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距：闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型（如 DALL·E-3）；而开放模型的性能则尚显不足。

MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具，也进一步推动了这一方向从“炫技”向“实用”迈进，是当前U-MLLMs 领域不可或缺的基准评测体系。

分为三个主要评测能力板块，涵盖数据构建、任务设计与评估策略，整体条理清晰、便于理解。

MME-Unify 评测框架设计详解

本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类：

- 多模态理解能力
- 多模态生成能力
- 统一任务能力

多模态理解（Multimodal Understanding)

数据构建

理解类任务根据视觉输入类型划分为三类：

- SIPU（单图感知与理解）：评估图文对的理解能力。
- MITIU（多图/图文交叉理解）：评估模型处理多张图和交替图文输入的能力。
- VPU（视频感知与理解）：评估模型的视频理解能力。

共收集1900个样本，覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务，其中感知类任务1600条，推理类任务300条，每类子任务不少于50对 QA 样本。

QA 标准化转化

为统一评估标准，所有理解类任务转为四选一多选题，干扰项与正确选项语义接近；无法处理视频的模型则使用关键帧，单图模型取首图。

评估策略

采用规则匹配法过滤答案（如 MME-Realworld），并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成（Multimodal Generation）

任务类型（6类）

1. FIR：图像细节重建
2. TIE：文本指导图像编辑
3. TIG：文本生成图像
4. CIVG：图像+文本生成视频
5. TVG：文本生成视频
6. VP：视频预测（预测后续帧）

每类任务不少于 200 个样本，数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一：将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。
- 任务专属提示语：为每类生成任务设计 prompt 模板，并统一数据格式。

评估策略

各任务先用专属指标（如 CLIP-I、FID、FVD）评估；
再将所有指标标准化到 0–100 分数区间；
取标准化后的平均分作为最终生成能力分数，实现跨任务可比性。

2.3 统一任务能力（Unify Capability）

MME-Unify 精心设计了5类混合模态统一任务，每类任务包括文本与图像双重输入输出，体现 U-MLLMs 的综合处理能力：

1. 常识问答生成图像（CSQ）

任务：根据常识谜语类问题选出正确答案并生成相应图像（如“国宝” → 熊猫）。
流程：GPT-4o 生成问题，人工搜图，模型需同时答题并作图。

2. 图像编辑与解释（IEE）

任务：理解复杂编辑指令，生成修改图，并解释修改内容。
构建方式：
文本选项由 GPT-4o 生成，图像干扰项由 InstructPix2Pix 生成。
模型需先解释修改内容（文本问答），再输出修改图（图像问答）。

3. 找不同任务（SpotDiff）

来源：SpotDiff 网站
模型需识别图像对的不同区域，输出数目和定位图，考察空间记忆和视觉推理能力。

4. 几何题辅助线任务（Auxiliary Lines）

来源：Geometry3K
模型需在图上画出解题辅助线，并作答（含逻辑和视觉两部分），考察推理+生成整合能力。

5. 视觉链式推理（Visual CoT）

任务：通过逐步生成导航动作、坐标和迷宫图像来走迷宫，模拟现实中的多步视觉决策过程。
每一步包括动作、坐标和图像输出，后续步骤包含历史信息，实现逐步 reasoning。

统一任务评估策略

文本部分：

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度；或直接选择选项。

图像部分：

用 CLIP-I 计算生成图与选项图像的相似度，选出最高者。

acc 与 acc+：

acc：文本准确率与图像准确率的平均值；
acc+：文本和图像都答对的样本占比；

对于 Visual CoT，则分别统计动作、坐标、图像的 acc，再取平均。

最终，MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值，构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型（MLLMs）和统一多模态大模型（U-MLLMs）进行了系统性评测，总共涵盖了22个主流模型。研究重点集中在三个维度：理解能力（Understanding）生成能力（Generation）以及统一能力（Unify Capability）。评估采用MME-U评分体系，并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结：

理解能力方面

表现最强的模型
是闭源的Gemini2.0-flash-exp，在所有理解类任务中遥遥领先。
开源阵营中表现最好的是Janus-Flow与Janus-Pro
，它们采用了两个独立的视觉编码器，分别用于理解与生成任务，成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。
采用单一tokenizer 的模型（如 Emu3、Show-o）在理解任务上表现普遍较差
，即便模型体量相当，也难以达到Janus系列的水准。
MIO-Instruct展现了强大的理解能力
，其背后是海量多模态数据（包含图像、视频、音频）与复杂三阶段训练流程的支持，强调了数据多样性在理解任务中的重要性。

生成能力方面

在图像生成任务中，U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大
举例来说，Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点，展现出强大的生成潜力。
多数U-MLLMs（如 EMU3、HermersFlow、GILL）在图像生成任务的平均得分均高于48，显示基础图像生成已具一定可用性。
不过，在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力，但由于缺乏相应 checkpoint，暂时无法验证。
从图像细节还原的角度看，当前开源U-MLLMs与DALL·E等模型仍有显著差距，尤其是在特定文本细节（如T恤号码、背景标语等）上的还原。

统一能力方面（Unify Tasks）

统一任务对模型提出了更高要求——既要生成合理图像，又要完成对应文本推理。
目前，开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率
，在复杂统一任务上几乎没有模型超过30%准确率。
在视觉链式推理（Visual CoT）任务中，无一模型能够成功完成多步推理与图像生成结合的完整流程
分析显示，统一任务对模型的多模态交叉能力提出了极高要求，目前仍是行业技术瓶颈。

深入分析与趋势观察

当前模型在基础能力（理解/生成）与统一能力之间普遍存在“性能权衡困境”

例如，MiniGPT-5、GILL、Anole 在统一任务设计上更激进，但牺牲了基础理解与生成能力，导致整体分数偏低。

而如MIO-Instruct虽然在基础能力上表现优秀，但在图文交错生成的统一任务中表现不佳。

这种表现差异提示：现有训练范式未能有效整合基础任务与跨模态任务的学习目标，可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看，U-MLLMs虽然展示了多模态统一任务的潜力，但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度，仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架，并量化了主流模型的能力上限，为未来模型设计提供了清晰参照与方向指引。

项目地址：

https://mme-unify.github.io

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.