网易首页 > 网易号 > 正文 申请入驻

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

0
分享至

RISEBench团队 投稿
量子位 | 公众号 QbitAI

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!

360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:

  • 现有的图像编辑评测基准是否已经无法跟上时代的步伐?
  • 仅仅停留在“更换颜色”等改变物体表层属性的测试,是否已显得过于简单,无法真正衡量AI的“深度理解”能力?
  • 当指令变得更加复杂,涉及图片背后的逻辑、上下文关联甚至隐含意图时,现有模型能否正确“领会”并精准执行,同时保证生成图像的质量和与原图的自然一致性?

为了填补这一空白,深度挖掘并客观评估视觉编辑模型在理解复杂指令方面的能力上限,团队推出了一项全新任务——Reasoning-Informed ViSual Editing (RISE)。

另外,他们还配套发布了一个高质量评测基准——RISEBench,覆盖时间、因果、空间、逻辑四种核心推理类型,每个案例包含原图和编辑指令。

例如输入一张图像,展示了一片草地上有片枯叶,上方有个放大镜,任务指令为“画出该场景在夏天30秒后的模样”。

团队测试了当前性能领先的九个视觉编辑模型,实验测试结果令人意外:

即使是最强的GPT-4o-Image,在复杂视觉编辑任务中的准确率也仅为28.9%,最强的开源模型BAGEL仅能完成5.8%的任务,其它被测开源模型完成率几乎为零,显示出当前开源模型与闭源模型在视觉理解能力上的差距。

以下是更多细节。

RISEBench长啥样?

与传统评测基准不同,RISEBench旨在评估视觉编辑模型在各类需要深层理解的指令上的性能。它不仅仅停留在表面修改,更深入地探索视觉编辑模型对时间、因果、空间和逻辑等复杂概念的把握。

RISEBench精心设计了360道高难度问题,全部由人类专家仔细思考并校对,确保了问题的严谨性和挑战性。这些题目被划分为四大核心类别,旨在全面考验模型的推理能力:

  • Temporal Reasoning(时间推理): 考验模型对时间线索的理解和未来/过去状态的预测。
  • Causal Reasoning(因果推理): 评估模型能否理解各类动作(碰撞,点燃,物理化学反应等)与结果之间的因果关系。
  • Spatial Reasoning(空间推理): 挑战模型对物体空间位置、关系、视角变换等想象能力的掌握。
  • Logical Reasoning(逻辑推理): 衡量模型对抽象规则、数学运算、逻辑关系的推断能力。

为了确保评估的全面性和泛化性,RISEBench的输入图像来源广泛,包括互联网数据、已有基准、模型生成图像以及代码生成图像等多个不同分布的数据源。

这种多源异构的设计,能够广泛细致地考验模型对不同输入图像和指令的应对能力,避免模型在特定数据分布上过拟合。

自动化的细粒度评估体系

为了精准、高效地评判模型输出是否符合要求,作者团队将整体评估拆分成了三个关键子维度,并采用前沿的多模态大模型作为评判专家(LMM-as-Judge)的方式,使用GPT-4.1作为评估模型对每个维度进行打分,确保评估的客观性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否准确理解了指令的深层含义。

  • 对于输出结果可用文字准确描述的指令,评估模型会判断生成图像与给定文本答案是否匹配。
  • 对于最终输出难以用文字描述的复杂指令,我们针对性地提供了用于参考的图像回答,评估模型将判断生成图像是否与参考图像相匹配。

2、Appearance Consistency(外观一致性): 评估生成图像与原图在背景以及风格、纹理等与指令无关的视觉元素上的一致性,确保编辑自然。

3、Visual Plausibility(视觉合理性): 衡量生成图像的整体视觉质量、真实感和视觉合理性,避免出现不自然或失真的效果。

每个维度均为1-5分,当三个维度均为满分时标记为完成了编辑任务。这种细粒度的评估设计显著提升了模型打分与人类判断的对齐程度,为未来视觉编辑模型的发展提供了更加可靠和公正的评估体系。

视觉编辑模型理解能力远未及格

作者团队对近期备受关注的多个闭源及开源模型进行了严格评估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及开源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

结果令人深思:

  • 全面欠缺: 测评结果明确指出,当前的视觉编辑模型在完成复杂指令方面仍存在相当大的欠缺。它们距离真正“读懂”用户的深层意图,还有很长的路要走。
  • GPT-4o-Image一骑绝尘,但仍远低于预期: 即使是目前公认最强的闭源模型GPT-4o-Image,在RISEBench上也仅仅只能完美完成28.9%的任务。
  • 闭源与开源差距显著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分别仅能完成13.3%和9.4%的任务,与GPT-4o-Image之间存在着明显的代际差距。更令人担忧的是,最强的开源模型BAGEL仅能完成5.8%的任务,这彰显出当前开源模型与闭源模型之间在视觉理解能力上的巨大鸿沟。 其他被测模型的完成率几乎为零,暴露出其薄弱的理解能力。

为了更深入地分析各模型的表现,研究团队还统计了每个模型在指令理解(Instruction Reasoning)、外观一致性(Appearance Consistency)和视觉合理性(Visual Plausibility)这三个评估维度上的平均得分,揭示了其短板所在。

结果表明:

  • 领先者全面发展: GPT和Gemini系列模型在所有三个维度上都展现出了相对较高的水准,因此在整体任务完成度上表现相对更佳。
  • 开源模型短板明显: BAGEL虽然在指令理解能力上仅次于GPT和Gemini,但在生成图像的视觉合理性上得分较低,这意味着其输出图像往往存在更多的失真或模糊现象,影响了最终得分。
  • 各有侧重,但均有缺陷: HiDream-Edit虽然具备部分理解能力,但在保持输出图像内容一致性上表现较差,容易出现与原图脱节的情况。Step1X-Edit虽然能生成较高视觉合理性的图像,但其指令理解能力和一致性表现均较低。
  • 理解力成为决定性因素: 其他模型由于几乎完全没有理解能力,且在保持一致性方面也表现不佳,最终导致其整体完成度接近于0。

团队认为,这些细致的评估结果清晰地揭示了当前视觉编辑模型所面临的严峻挑战:

不仅仅是简单的技术实现,更深层次的认知和推理能力才是决定未来模型性能的关键瓶颈。

最后,作者团队展望未来并表示:

  • RISEBench的发布,标志着图像编辑评测标准的一次重大升级。希望它能推动下一代视觉编辑模型发展,引领编辑模型从“模仿”走向“理解”,最终实现真正智能、富有创造力的视觉交互。

论文链接:https://arxiv.org/pdf/2504.02826
GitHub链接:https://github.com/PhoenixZ810/RISEBench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫:美国总统特朗普将于5月访华

白宫:美国总统特朗普将于5月访华

辇毂
2026-03-26 05:18:40
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
国防部:赖清德媚日恋殖丑态令人不齿

国防部:赖清德媚日恋殖丑态令人不齿

界面新闻
2026-03-26 16:11:53
越挖越多!张雪峰离世早有征兆,他的2个不良嗜好,或成催命符

越挖越多!张雪峰离世早有征兆,他的2个不良嗜好,或成催命符

爆笑大聪明阿衿
2026-03-25 23:04:10
老板娘问我她熊大不大?我该怎么回答?

老板娘问我她熊大不大?我该怎么回答?

太急张三疯
2026-03-26 10:36:30
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

小南看车
2026-03-25 22:59:29
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
11投狂砍27分+7记三分!这才是联盟顶级小前锋,郭士强真没看错人

11投狂砍27分+7记三分!这才是联盟顶级小前锋,郭士强真没看错人

老叶评球
2026-03-25 22:06:40
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

刘笤说体坛
2026-03-26 08:57:48
小波特:为了表达对科比的尊重 我必须超越阿德巴约的纪录

小波特:为了表达对科比的尊重 我必须超越阿德巴约的纪录

北青网-北京青年报
2026-03-26 09:35:35
《超人》女演员治病花光积蓄后去世,好友为其葬礼发起筹款

《超人》女演员治病花光积蓄后去世,好友为其葬礼发起筹款

红星新闻
2026-03-24 14:16:15
惊天逆转!伊朗,吹响进攻号角!

惊天逆转!伊朗,吹响进攻号角!

大嘴说天下
2026-03-23 21:32:12
肯豆不穿内搭不尴尬吗?

肯豆不穿内搭不尴尬吗?

乡野小珥
2026-03-26 08:38:37
黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

有范又有料
2026-03-26 16:07:15
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
2026-03-26 16:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
艺术
家居
亲子

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

无障碍浏览 进入关怀版