网易首页 > 网易号 > 正文 申请入驻

Seedream4.0大战NanoBanana、GPT-4o?EdiVal-Agent 终结编辑评测

0
分享至



在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

为了解决这一难题,来自得克萨斯大学奥斯汀分校、UCLA、微软等机构的研究者们共同提出了EdiVal-Agent,一个以对象为中心自动化细粒度多轮编辑(Multi-Turn Editing)评估框架。

EdiVal-Agent的名字巧妙地融合了“Editing”(编辑)和“Evaluation”(评估),并以“Agent”(智能体)的形式呈现,寓意它是一个能够自主执行复杂评估任务智能系统。它不仅能自动化生成多样化的编辑指令,还能从指令遵循,内容一致性,视觉质量多维度对编辑结果进行精细评估,其评估结果与人类判断的一致性显著优于现有方法。



  • 论文题目:
  • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
  • 论文链接:
  • https://arxiv.org/abs/2509.13399
  • 项目主页:
  • https://tianyucodings.github.io/EdiVAL-page/

评测:如何定义“好”的编辑?

当前主流评测分为两类:

1、基于参考图像(Reference-based):依赖成对的参考图像,覆盖面有限,还容易继承旧模型的偏差。

2、基于大模型打分(VLM-based):用视觉语言模型(VLM)通过提示语打分,看似方便却问题重重:空间理解差,常误判物体位置关系;细节不敏感,难察觉局部微小修改;审美失准,对生成瑕疵(artifacts)缺乏感知。结果是,VLM 单评虽“方便”,却难以精确可靠地衡量编辑质量。

EdiVal-Agent :图像编辑界的“评测裁判”

EdiVal-Agent是一个面向对象自动评测智能体。它能像人类一样,识别图像中的每个对象,理解编辑语义,并在多轮编辑动态追踪变化。

在讲工作流之前,我们先来看一组直观的测试结果。

Base Image:两匹马

  • Turn 1:添加文字 “HORSES
  • Turn 2:棕色的马换成一只鹿
  • Turn 3:白马的毛色改成棕色



听起来很简单,对吧?但当我们让各家顶尖模型来完成这三步时,结果却大不相同。

GPT-Image-1(OpenAI) 指令执行得不错,但背景和细节越来越不一致。

Qwen-Image-Edit(阿里)视觉质量和一致性上双双失手,第三轮后出现明显“过曝感”。

FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三轮“白马的毛色改成棕色”执行失败。

Nano Banana(Google Gemini 2.5 Flash) 表现最平衡——稳、准、无明显短板

在刚才的对比中,我们看到不同模型在多轮编辑下表现差异明显。那 EdiVal-Agent 是如何实现自动评测、做到“既懂图又懂语义”的呢?答案来自它精心设计的三步工作流。



1、图像分解(Decomposition)

第一步,EdiVal-Agent 会让大模型(如 GPT-4o)先“看懂”一张图片。它会自动识别出图中所有可见对象,并为每个对象生成结构化的描述——包括颜色(color)、材质(material)、物体上是否存在文字(text)、数量(count) 和前景属性 (foreground)。

这些对象被汇总成一个对象池(Object Pool),并通过物体检测器进行验证过滤,为后续指令生成和评测打下基础。

2、指令生成(Instruction Generation)

第二步,EdiVal-Agent 根据场景自动生成多轮编辑指令。 它拥有覆盖9 种编辑类型、6 个语义类别的指令体系,包括:

添加(add)、删除(remove)、替换(replace)、 改颜色(color alter)、改材质(material alter)、改文字(text change)、移动位置(position change)、改数量(count change)、换背景(background change)。

EdiVal-Agent 会动态维护三个对象池:

  • All Objects Pool(所有出现过的对象)
  • Available Objects Pool(当前可编辑的对象)
  • Unchanged Objects Pool(尚未被修改的对象)

在每一轮编辑中,智能体都会:

  • 随机选取指令类型;
  • 挑选合适对象;
  • 生成自然语言编辑指令;
  • 更新对象池状态。

默认设置为三轮(Turn 1 – Turn 3),也可以扩展到更长链条,实现更多轮可组合编辑。

3、 自动评测(Evaluation)

最后一步,EdiVal-Agent 从三个维度评估模型表现:

  • EdiVal-IF(Instruction Following)判断模型是否准确执行指令——例如“把白马换成鹿”是否真的完成。 对于符号任务(如位置或数量变化),使用 Grounding-DINO 等开放词汇检测器进行几何验证; 对于语义任务(如颜色或背景变化),则结合物体检测器和VLM进行语义核对。
  • EdiVal-CC(Content Consistency)测量未被编辑的部分是否保持一致。 它计算背景区域(排除 All Objects Pool 中的所有物体)与未修改对象(属于 Unchanged Objects Pool 的物体)之间的语义相似度,以确保模型不会“误伤”无关区域。比如,下图中GPT-Image-1编辑后的STOP 标志发生了明显变化,而Nano Banana则更真实地保持了内容一致性
  • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 评估整体视觉质量,量化生成结果的美观度自然度

最终综合指标EdiVal-O通过几何平均融合EdiVal-IFEdiVal-CC,平衡“是否听话”与“是否稳定”。



为什么不把 EdiVal-VQ 纳入总体分数?

在评估中,我们发现“视觉质量(EdiVal-VQ)”虽然重要,但并不适合直接计入综合得分。以指令“将背景换成图书馆”为例:

  • GPT-Image-1会倾向于“美化”图像,让整体更光亮、更清晰,从而提升审美得分
  • FLUX.1-Kontext-max则选择“保真”策略,尽量保持原始风格,只替换必要区域。



这说明不同模型在面对同一任务时,有的更追求视觉美感(beautification),有的更注重和保真(preservation)。由于在图像编辑中,是否应追求“美化”仍存在争议,因此我们未将 EdiVal-VQ 纳入最终评测指标。

EdiVal-Agent 的人类一致性验证

EdiVal-Agent评测结果能否“想法与人一致”?

我们设计了一项人类一致性实验(Human Agreement Study),来检验 EdiVal-Agent 的评测结果,是否真正符合人类判断。结果如下:



EdiVal-Agent 的指标EdiVal-IF与人类判断的平均一致率高达81.3%。相比之下,传统评测方法的表现明显更低:

  • VLM-only(Qwen-2.5-VL):75.2%
  • CLIP-dir(CLIP-directional similarity):68.9%

换句话说,EdiVal-Agent 不仅能“算得对”,更能“想得像人”。此外,人工之间的一致率为85.5%,这意味着——EdiVal-Agent 的表现已接近人类评测的上限

为什么 EdiVal-IF 与人类判断更为一致?

符号任务更精准。对于“添加 / 删除 / 替换 / 移动 / 改数量”等符号(symbolic)任务,EdiVal-IF使用Grounding-DINO精确检测目标是否真的出现、移动或消失,几乎没有歧义。相比之下,VLM模型则容易受到幻觉(Hallucination)空间推理(Spatial Reasoning)的限制。

语义任务更智能。 对于“改颜色 / 改材质 / 改文字 / 换背景”等语义(semantic)任务,EdiVal-IFVLM(Qwen-2.5-VL)对象检测(Object Detection)相结合,先定位,再推理,让模型真正做到“对着图回答问题”。

结果表明,这种检测 + 推理融合的方式,比单纯让大模型“看图说话”更加稳定、可靠。

谁才是最强图像编辑模型?

在本文提出的多轮图像编辑EdiVal-Bench上,EdiVal-Agent系统对比了13 个代表性模型,涵盖闭源与开源、in-context和context-free,Flow Matching与Diffusion等不同范式。结果如下:



其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型内容一致性的能力。EdiVal-O是两者的几何平均值,为最终评分。可以看到:

  • Seedream 4.0 在指令遵循能力上遥遥领先,并且在最终评分上全面超越国际闭源模型,排名第一;
  • Nano Banana在速度(Latency)与质量上达成完美平衡,在内容一致性上尤为出色,排名第二;
  • GPT-Image-1指令遵循能力上出色,因追求美观(见上文)而牺牲一致性,位列第三;
  • Qwen-Image-Edit出现典型“曝光偏差(exposure bias)”:在编辑次数变多时越改越偏,其在开源模型中排名第一,总排名第六。

评测结果也解释了为什么ChatGPT-4o在吉卜力风格迁移指令遵循美化效果出圈,而Nano Banana在OOTD这些背景/物体一致性要求比较高的任务上出圈。

更多实验结果与详细分析(比如关于in-context和complex editing),欢迎阅读原文。

关于作者

论文作者成员来自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,两位共同一作分别是陈天钰,张雅思。

陈天钰,得克萨斯大学奥斯汀分校(UT-Austin)统计系博士生(三年级),导师为周名远教授。硕士毕业于芝加哥大学,本科毕业于复旦大学统计系。研究方向涵盖生成模型、强化学习、因果推断与表示学习等,目前与Microsoft GenAI开展长期合作研究。

张雅思,加州大学洛杉矶分校(UCLA)统计与数据科学系博士生(四年级),师从吴英年教授与 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模态学习、大模型后训练与计算机视觉,曾在Amazon AWS AI LabsGoogle Research从事相关研究工作。

值得一提的是,两位共一本科均毕业于复旦大学。



陈天钰



张雅思

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰选手夺冠,中立身份俄罗斯选手拒绝面向国旗

乌克兰选手夺冠,中立身份俄罗斯选手拒绝面向国旗

湖报体育
2026-03-31 16:23:37
黄金年内回撤达26%!金价历史上6次跳水原因找到了

黄金年内回撤达26%!金价历史上6次跳水原因找到了

21世纪经济报道
2026-03-31 19:40:34
74岁港星施明病逝,儿子没见最后一面泣不成声,李家鼎仍无法接受

74岁港星施明病逝,儿子没见最后一面泣不成声,李家鼎仍无法接受

白面书誏
2026-03-31 14:43:13
发现一个奇怪的现象:那些把钱用来给自己买化妆品、旅游、自我提升的妈妈

发现一个奇怪的现象:那些把钱用来给自己买化妆品、旅游、自我提升的妈妈

新浪财经
2026-03-31 07:08:21
孙艺珍庆祝与玄彬结婚四周年:永远的…在爱情与友情之间的某处

孙艺珍庆祝与玄彬结婚四周年:永远的…在爱情与友情之间的某处

韩小娱
2026-03-31 16:57:19
我主刀16年被降职,上头指名要我手术,我:已辞职,院长懵了

我主刀16年被降职,上头指名要我手术,我:已辞职,院长懵了

青青会讲故事
2025-06-30 16:11:45
孕妇买200元水果被丈夫咒骂,嘴毒心狠眼神还吓人,网友炸翻了

孕妇买200元水果被丈夫咒骂,嘴毒心狠眼神还吓人,网友炸翻了

潮鹿逐梦
2026-03-31 12:13:45
等不到日本道歉,外交部宣布动手,第3波制裁降临,日大使喊对话

等不到日本道歉,外交部宣布动手,第3波制裁降临,日大使喊对话

素衣读史
2026-03-31 18:02:04
李荣浩大师课:为什么《歌手》能唱《李白》,演唱会就不行?

李荣浩大师课:为什么《歌手》能唱《李白》,演唱会就不行?

仙女事件簿
2026-03-30 23:55:36
麦迪:约基奇不会在乎拿了20+20+20,赛后他只关心自己的马

麦迪:约基奇不会在乎拿了20+20+20,赛后他只关心自己的马

懂球帝
2026-03-30 21:30:09
万科最贵女秘书有了新任命

万科最贵女秘书有了新任命

地产微资讯
2026-03-31 10:20:48
研究发现:走路与寿命之间的关系!每天走8763步,死亡风险最低

研究发现:走路与寿命之间的关系!每天走8763步,死亡风险最低

医学原创故事会
2026-03-14 22:34:02
油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

华庭讲美食
2026-03-28 17:08:13
央视主持人尼格买提:陪母亲抗癌6年,再婚顺其自然

央视主持人尼格买提:陪母亲抗癌6年,再婚顺其自然

情感大头说说
2026-03-30 17:09:10
4抢断4拦截!邵佳一爱将太亮眼:对抗不输喀麦隆,留洋英超涨球了

4抢断4拦截!邵佳一爱将太亮眼:对抗不输喀麦隆,留洋英超涨球了

小火箭爱体育
2026-03-31 17:58:41
一夜狂跌400元!3月31日金价变天,一定要注意这3个坑千万别踩!

一夜狂跌400元!3月31日金价变天,一定要注意这3个坑千万别踩!

蓝色海边
2026-03-31 17:38:36
“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

都市快报橙柿互动
2026-03-29 12:26:05
王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

谈史论天地
2026-03-30 14:26:08
正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

萌兰聊个球
2026-03-31 14:44:52
突然宣布大涨价!全网多渠道售罄、缺货!

突然宣布大涨价!全网多渠道售罄、缺货!

江南晚报
2026-03-29 12:17:06
2026-03-31 20:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12647文章数 142600关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

头条要闻

张雪机车订单已排到6月"禁止"新手购买820RR 销售回应

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

本地
亲子
家居
游戏
公开课

本地新闻

用Color Walk的方式解锁城市春日

亲子要闻

宝蓝扮演理发师帮叔叔做头发,还给芭比娃娃做了漂亮的发型~

家居要闻

新婚爱巢 甜蜜情趣拉满

梦幻西游旭旭宝宝斩获第一天科女衣,紫禁之巅惊现140无级别惨案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版