网易首页 > 网易号 > 正文 申请入驻

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

0
分享至

RISEBench团队 投稿
量子位 | 公众号 QbitAI

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!

360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:

  • 现有的图像编辑评测基准是否已经无法跟上时代的步伐?
  • 仅仅停留在“更换颜色”等改变物体表层属性的测试,是否已显得过于简单,无法真正衡量AI的“深度理解”能力?
  • 当指令变得更加复杂,涉及图片背后的逻辑、上下文关联甚至隐含意图时,现有模型能否正确“领会”并精准执行,同时保证生成图像的质量和与原图的自然一致性?

为了填补这一空白,深度挖掘并客观评估视觉编辑模型在理解复杂指令方面的能力上限,团队推出了一项全新任务——Reasoning-Informed ViSual Editing (RISE)。

另外,他们还配套发布了一个高质量评测基准——RISEBench,覆盖时间、因果、空间、逻辑四种核心推理类型,每个案例包含原图和编辑指令。

例如输入一张图像,展示了一片草地上有片枯叶,上方有个放大镜,任务指令为“画出该场景在夏天30秒后的模样”。

团队测试了当前性能领先的九个视觉编辑模型,实验测试结果令人意外:

即使是最强的GPT-4o-Image,在复杂视觉编辑任务中的准确率也仅为28.9%,最强的开源模型BAGEL仅能完成5.8%的任务,其它被测开源模型完成率几乎为零,显示出当前开源模型与闭源模型在视觉理解能力上的差距。

以下是更多细节。

RISEBench长啥样?

与传统评测基准不同,RISEBench旨在评估视觉编辑模型在各类需要深层理解的指令上的性能。它不仅仅停留在表面修改,更深入地探索视觉编辑模型对时间、因果、空间和逻辑等复杂概念的把握。

RISEBench精心设计了360道高难度问题,全部由人类专家仔细思考并校对,确保了问题的严谨性和挑战性。这些题目被划分为四大核心类别,旨在全面考验模型的推理能力:

  • Temporal Reasoning(时间推理): 考验模型对时间线索的理解和未来/过去状态的预测。
  • Causal Reasoning(因果推理): 评估模型能否理解各类动作(碰撞,点燃,物理化学反应等)与结果之间的因果关系。
  • Spatial Reasoning(空间推理): 挑战模型对物体空间位置、关系、视角变换等想象能力的掌握。
  • Logical Reasoning(逻辑推理): 衡量模型对抽象规则、数学运算、逻辑关系的推断能力。

为了确保评估的全面性和泛化性,RISEBench的输入图像来源广泛,包括互联网数据、已有基准、模型生成图像以及代码生成图像等多个不同分布的数据源。

这种多源异构的设计,能够广泛细致地考验模型对不同输入图像和指令的应对能力,避免模型在特定数据分布上过拟合。

自动化的细粒度评估体系

为了精准、高效地评判模型输出是否符合要求,作者团队将整体评估拆分成了三个关键子维度,并采用前沿的多模态大模型作为评判专家(LMM-as-Judge)的方式,使用GPT-4.1作为评估模型对每个维度进行打分,确保评估的客观性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否准确理解了指令的深层含义。

  • 对于输出结果可用文字准确描述的指令,评估模型会判断生成图像与给定文本答案是否匹配。
  • 对于最终输出难以用文字描述的复杂指令,我们针对性地提供了用于参考的图像回答,评估模型将判断生成图像是否与参考图像相匹配。

2、Appearance Consistency(外观一致性): 评估生成图像与原图在背景以及风格、纹理等与指令无关的视觉元素上的一致性,确保编辑自然。

3、Visual Plausibility(视觉合理性): 衡量生成图像的整体视觉质量、真实感和视觉合理性,避免出现不自然或失真的效果。

每个维度均为1-5分,当三个维度均为满分时标记为完成了编辑任务。这种细粒度的评估设计显著提升了模型打分与人类判断的对齐程度,为未来视觉编辑模型的发展提供了更加可靠和公正的评估体系。

视觉编辑模型理解能力远未及格

作者团队对近期备受关注的多个闭源及开源模型进行了严格评估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及开源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

结果令人深思:

  • 全面欠缺: 测评结果明确指出,当前的视觉编辑模型在完成复杂指令方面仍存在相当大的欠缺。它们距离真正“读懂”用户的深层意图,还有很长的路要走。
  • GPT-4o-Image一骑绝尘,但仍远低于预期: 即使是目前公认最强的闭源模型GPT-4o-Image,在RISEBench上也仅仅只能完美完成28.9%的任务。
  • 闭源与开源差距显著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分别仅能完成13.3%和9.4%的任务,与GPT-4o-Image之间存在着明显的代际差距。更令人担忧的是,最强的开源模型BAGEL仅能完成5.8%的任务,这彰显出当前开源模型与闭源模型之间在视觉理解能力上的巨大鸿沟。 其他被测模型的完成率几乎为零,暴露出其薄弱的理解能力。

为了更深入地分析各模型的表现,研究团队还统计了每个模型在指令理解(Instruction Reasoning)、外观一致性(Appearance Consistency)和视觉合理性(Visual Plausibility)这三个评估维度上的平均得分,揭示了其短板所在。

结果表明:

  • 领先者全面发展: GPT和Gemini系列模型在所有三个维度上都展现出了相对较高的水准,因此在整体任务完成度上表现相对更佳。
  • 开源模型短板明显: BAGEL虽然在指令理解能力上仅次于GPT和Gemini,但在生成图像的视觉合理性上得分较低,这意味着其输出图像往往存在更多的失真或模糊现象,影响了最终得分。
  • 各有侧重,但均有缺陷: HiDream-Edit虽然具备部分理解能力,但在保持输出图像内容一致性上表现较差,容易出现与原图脱节的情况。Step1X-Edit虽然能生成较高视觉合理性的图像,但其指令理解能力和一致性表现均较低。
  • 理解力成为决定性因素: 其他模型由于几乎完全没有理解能力,且在保持一致性方面也表现不佳,最终导致其整体完成度接近于0。

团队认为,这些细致的评估结果清晰地揭示了当前视觉编辑模型所面临的严峻挑战:

不仅仅是简单的技术实现,更深层次的认知和推理能力才是决定未来模型性能的关键瓶颈。

最后,作者团队展望未来并表示:

  • RISEBench的发布,标志着图像编辑评测标准的一次重大升级。希望它能推动下一代视觉编辑模型发展,引领编辑模型从“模仿”走向“理解”,最终实现真正智能、富有创造力的视觉交互。

论文链接:https://arxiv.org/pdf/2504.02826
GitHub链接:https://github.com/PhoenixZ810/RISEBench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
吉林高中生自信抗冻玩哈尔滨,结果冰雪大世界玩一天下来被冻伤

吉林高中生自信抗冻玩哈尔滨,结果冰雪大世界玩一天下来被冻伤

看晓天下事
2026-01-22 11:54:52
乌克兰精准打击俄油料和雷达设施,克里米亚与顿巴斯多点爆炸

乌克兰精准打击俄油料和雷达设施,克里米亚与顿巴斯多点爆炸

桂系007
2026-01-23 00:00:02
这里的女性以赤裸上身为美,男性平均活不到15岁

这里的女性以赤裸上身为美,男性平均活不到15岁

忠于法纪
2026-01-20 18:32:23
62岁的甘地跟一个美女扭捏作态,怎么看都不像禁欲主义者

62岁的甘地跟一个美女扭捏作态,怎么看都不像禁欲主义者

年代回忆
2026-01-20 21:34:53
美媒警告:若中国不还百年债务,美国将拒绝承认对华欠款。

美媒警告:若中国不还百年债务,美国将拒绝承认对华欠款。

特约前排观众
2026-01-23 00:10:07
大坂直美大喊加油引发对手不满,赛后握手爆发不满气氛火爆

大坂直美大喊加油引发对手不满,赛后握手爆发不满气氛火爆

体育妞世界
2026-01-23 00:40:03
毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

裕丰娱间说
2026-01-20 20:37:15
四个团硬刚我军一个纵队6天6夜,塔山阻击战中赵子龙师的最后时刻

四个团硬刚我军一个纵队6天6夜,塔山阻击战中赵子龙师的最后时刻

北风那个吹呀吹
2024-09-14 01:00:42
震惊!你绝对想不到艾滋病高发地是这里!

震惊!你绝对想不到艾滋病高发地是这里!

特约前排观众
2026-01-15 00:10:08
说出来也许你不信!国际球星比我们中国球迷还关注我们的U23队!

说出来也许你不信!国际球星比我们中国球迷还关注我们的U23队!

星耀国际足坛
2026-01-22 22:33:39
异性之间,任何一段长期关系的核心,根本不是爱,而是这4样

异性之间,任何一段长期关系的核心,根本不是爱,而是这4样

知和大叔
2026-01-22 23:46:04
保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

不易一字
2025-03-19 17:49:40
小米集团宣布最高25亿港元的自动股份回购计划

小米集团宣布最高25亿港元的自动股份回购计划

界面新闻
2026-01-22 18:21:52
高德和交警联网了吗?网友:高德敢联网,就会失去大量客户

高德和交警联网了吗?网友:高德敢联网,就会失去大量客户

夜深爱杂谈
2025-12-15 23:14:05
微胖新娘“国泰民安脸”成焦点,婚礼照片流出,网友:这才是福相

微胖新娘“国泰民安脸”成焦点,婚礼照片流出,网友:这才是福相

梅子的小情绪
2025-12-13 16:04:37
记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

阿芒娱乐说
2025-12-31 13:46:18
墙倒众人推!无缘冠军的孙颖莎到底输在哪?邓亚萍的话一针见血

墙倒众人推!无缘冠军的孙颖莎到底输在哪?邓亚萍的话一针见血

丁丁鲤史纪
2025-11-17 15:58:28
拟聘用4人均毕业于国外高校,遭质疑“萝卜岗”,邯郸学院回应:只是凑巧,面试10人,拟聘4人

拟聘用4人均毕业于国外高校,遭质疑“萝卜岗”,邯郸学院回应:只是凑巧,面试10人,拟聘4人

扬子晚报
2026-01-21 19:15:36
数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

华庭讲美食
2025-12-23 14:36:32
2026-01-23 03:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12050文章数 176362关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

本地
手机
艺术
数码
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

手机要闻

真我Neo8三星堆限定礼盒延期发布:工艺要求太严格 备货未达预期

艺术要闻

265米!中集集团全球总部开工,大楼如一幅“山水画”

数码要闻

2026款华硕a豆14 Air笔记本发布,6999元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版