网易首页 > 网易号 > 正文 申请入驻

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源

0
分享至

MME-Benchmarks团队 投稿量子位 | 公众号 QbitAI

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领域还存在几个突出的问题:

1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;

2. 混合模态生成能力缺乏评测体系:例如,在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了U-MLLMs的发展和落地应用,因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:

首次提出统一评测框架:MME-U 是第一个涵盖“理解”、“生成”与“统一任务(混合模态生成)”的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系:

  • 从12个现有数据集中筛选整理,形成10大类任务,包含30个子任务
  • 理解类任务涵盖:单图感知、多图推理、视频理解等;
  • 生成类任务涵盖:文本生成图像、图像编辑、图像转视频等。

统一评测标准:

  • 将理解任务统一转为多选题,使用准确率作为评测指标;
  • 将生成任务的多种指标标准化、归一化,输出统一分数,便于横向比较。

设计五类“统一任务”,考察模型对多模态信息的协同处理能力:

  • 图像编辑与解释:
  • 模型需理解编辑指令并执行;
  • 常识问答生成图像:
  • 模型需根据问答内容生成合适图像;
  • 辅助线任务:
  • 要求模型画出解几何题所需的辅助线并解题;
  • 找不同(SpotDiff):
  • 在两张图中找并画出差异;
  • 视觉链式推理(Visual CoT):
  • 边推理边生成下一步图像结果。

实测分析12个主流U-MLLMs表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距:闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL·E-3);而开放模型的性能则尚显不足。

MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从“炫技”向“实用”迈进,是当前U-MLLMs 领域不可或缺的基准评测体系。

分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。

MME-Unify 评测框架设计详解

本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类:

- 多模态理解能力
- 多模态生成能力
- 统一任务能力

多模态理解(Multimodal Understanding)

数据构建

理解类任务根据视觉输入类型划分为三类:

- SIPU(单图感知与理解):评估图文对的理解能力。
- MITIU(多图/图文交叉理解):评估模型处理多张图和交替图文输入的能力。
- VPU(视频感知与理解):评估模型的视频理解能力。

共收集1900个样本,覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务,其中感知类任务1600条,推理类任务300条,每类子任务不少于50对 QA 样本。

QA 标准化转化

为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。

评估策略

采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成(Multimodal Generation)

任务类型(6类)

1. FIR:图像细节重建
2. TIE:文本指导图像编辑
3. TIG:文本生成图像
4. CIVG:图像+文本生成视频
5. TVG:文本生成视频
6. VP:视频预测(预测后续帧)

每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。
- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。

评估策略

  • 各任务先用专属指标(如 CLIP-I、FID、FVD)评估;
  • 再将所有指标标准化到 0–100 分数区间;
  • 取标准化后的平均分作为最终生成能力分数,实现跨任务可比性。

2.3 统一任务能力(Unify Capability)

MME-Unify 精心设计了5类混合模态统一任务,每类任务包括文本与图像双重输入输出,体现 U-MLLMs 的综合处理能力:

1. 常识问答生成图像(CSQ)

  • 任务:根据常识谜语类问题选出正确答案并生成相应图像(如“国宝” → 熊猫)。
  • 流程:GPT-4o 生成问题,人工搜图,模型需同时答题并作图。

2. 图像编辑与解释(IEE)

  • 任务:理解复杂编辑指令,生成修改图,并解释修改内容。
  • 构建方式:
  • 文本选项由 GPT-4o 生成,图像干扰项由 InstructPix2Pix 生成。
    模型需先解释修改内容(文本问答),再输出修改图(图像问答)。

3. 找不同任务(SpotDiff)

  • 来源:SpotDiff 网站
  • 模型需识别图像对的不同区域,输出数目和定位图,考察空间记忆和视觉推理能力。

4. 几何题辅助线任务(Auxiliary Lines)

  • 来源:Geometry3K
  • 模型需在图上画出解题辅助线,并作答(含逻辑和视觉两部分),考察推理+生成整合能力。

5. 视觉链式推理(Visual CoT)

  • 任务:通过逐步生成导航动作、坐标和迷宫图像来走迷宫,模拟现实中的多步视觉决策过程。
  • 每一步包括动作、坐标和图像输出,后续步骤包含历史信息,实现逐步 reasoning。

统一任务评估策略

  • 文本部分:

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。

  • 图像部分:

用 CLIP-I 计算生成图与选项图像的相似度,选出最高者。

acc 与 acc+:

acc:文本准确率与图像准确率的平均值;
acc+:文本和图像都答对的样本占比;

对于 Visual CoT,则分别统计动作、坐标、图像的 acc,再取平均。

最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了22个主流模型。研究重点集中在三个维度:理解能力(Understanding)生成能力(Generation)以及统一能力(Unify Capability)。评估采用MME-U评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:

理解能力方面

  • 表现最强的模型
  • 是闭源的Gemini2.0-flash-exp,在所有理解类任务中遥遥领先。
  • 开源阵营中表现最好的是Janus-Flow与Janus-Pro
  • ,它们采用了两个独立的视觉编码器,分别用于理解与生成任务,成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。
  • 采用单一tokenizer 的模型(如 Emu3、Show-o)在理解任务上表现普遍较差
  • ,即便模型体量相当,也难以达到Janus系列的水准。
  • MIO-Instruct展现了强大的理解能力
  • ,其背后是海量多模态数据(包含图像、视频、音频)与复杂三阶段训练流程的支持,强调了数据多样性在理解任务中的重要性。

生成能力方面

  • 在图像生成任务中,U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大
  • 举例来说,Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点,展现出强大的生成潜力。
  • 多数U-MLLMs(如 EMU3、HermersFlow、GILL)在图像生成任务的平均得分均高于48,显示基础图像生成已具一定可用性。
  • 不过,在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。
  • 从图像细节还原的角度看,当前开源U-MLLMs与DALL·E等模型仍有显著差距,尤其是在特定文本细节(如T恤号码、背景标语等)上的还原。

统一能力方面(Unify Tasks)

  • 统一任务对模型提出了更高要求——既要生成合理图像,又要完成对应文本推理。
  • 目前,开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率
  • ,在复杂统一任务上几乎没有模型超过30%准确率。
  • 在视觉链式推理(Visual CoT)任务中,无一模型能够成功完成多步推理与图像生成结合的完整流程
  • 分析显示,统一任务对模型的多模态交叉能力提出了极高要求,目前仍是行业技术瓶颈。

深入分析与趋势观察

  • 当前模型在基础能力(理解/生成)与统一能力之间普遍存在“性能权衡困境”

例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。

而如MIO-Instruct虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。

这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看,U-MLLMs虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。

项目地址:

https://mme-unify.github.io

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吃瓜后续丨四川大学通报王竹卿事件调查结果

吃瓜后续丨四川大学通报王竹卿事件调查结果

忘忧杂话店
2026-02-14 22:15:43
微软人工智能CEO:最快1年,大部分白领工作会被AI完全自动化

微软人工智能CEO:最快1年,大部分白领工作会被AI完全自动化

红星新闻
2026-02-14 13:52:23
“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

神奇故事
2026-02-13 23:31:12
2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

俯身冲顶
2026-02-14 06:33:36
苹果官网又推送新固件!

苹果官网又推送新固件!

果粉易查
2026-02-14 21:25:03
乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

史政先锋
2026-02-14 18:42:24
“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

妍妍教育日记
2026-02-12 18:48:38
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
震惊!网传清远一工厂春节放假,几百员工办离职,竟然都是临时工

震惊!网传清远一工厂春节放假,几百员工办离职,竟然都是临时工

火山詩话
2026-02-13 15:17:46
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
笑不活了!《中华小当家》主角刘昴星又复活了,还是粒子重组身体

笑不活了!《中华小当家》主角刘昴星又复活了,还是粒子重组身体

二次元那些事
2026-02-14 15:08:54
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

老蝣说体育
2026-01-31 13:51:15
伊利亚拉门迪:在香港现场看球的人不多;希望皇社能赢皇马

伊利亚拉门迪:在香港现场看球的人不多;希望皇社能赢皇马

懂球帝
2026-02-14 13:27:06
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
王励勤正式出面!国乒4主力官宣退役,林诗栋状态持续低迷引关注

王励勤正式出面!国乒4主力官宣退役,林诗栋状态持续低迷引关注

观察鉴娱
2026-02-14 10:04:52
笑不活了!朱芳雨提大箱现身,不是离职是回广西吃螺蛳粉

笑不活了!朱芳雨提大箱现身,不是离职是回广西吃螺蛳粉

TVB的四小花
2026-02-14 00:53:04
发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

千秋文化
2026-02-13 19:08:05
少子化+AI,正在杀死延续了70年的选拔游戏

少子化+AI,正在杀死延续了70年的选拔游戏

格致君
2026-02-14 09:21:44
此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

卷史
2026-02-14 17:10:42
2026-02-15 00:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12171文章数 176384关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

推广中奖名单-更新至2026年2月3日推广

教育要闻

“取消一门学科”:英语排第2,第1名实至名归...

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版