网易首页 > 网易号 > 正文 申请入驻

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终...

0
分享至

来源:市场资讯

(来源:机器之心)


在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

为了解决这一难题,来自得克萨斯大学奥斯汀分校、UCLA、微软等机构的研究者们共同提出了 EdiVal-Agent,一个以对象为中心的自动化、细粒度的多轮编辑(Multi-Turn Editing)评估框架。

EdiVal-Agent 的名字巧妙地融合了“Editing”(编辑)和“Evaluation”(评估),并以“Agent”(智能体)的形式呈现,寓意它是一个能够自主执行复杂评估任务的智能系统。它不仅能自动化生成多样化的编辑指令,还能从指令遵循,内容一致性,视觉质量多维度对编辑结果进行精细评估,其评估结果与人类判断的一致性显著优于现有方法。


  • 论文题目:

    EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing

  • 论文链接:

    https://arxiv.org/abs/2509.13399

  • 项目主页:

    https://tianyucodings.github.io/EdiVAL-page/

评测:如何定义“好”的编辑?

当前主流评测分为两类:

1、基于参考图像(Reference-based):依赖成对的参考图像,覆盖面有限,还容易继承旧模型的偏差。

2、基于大模型打分(VLM-based):用视觉语言模型(VLM)通过提示语打分,看似方便却问题重重:空间理解差,常误判物体位置与关系;细节不敏感,难察觉局部或微小修改;审美失准,对生成瑕疵(artifacts)缺乏感知。结果是,VLM 单评虽“方便”,却难以精确、可靠地衡量编辑质量。

EdiVal-Agent :图像编辑界的“评测裁判”

EdiVal-Agent 是一个面向对象的自动评测智能体。它能像人类一样,识别图像中的每个对象,理解编辑语义,并在多轮编辑中动态追踪变化。

在讲工作流之前,我们先来看一组直观的测试结果。

Base Image:两匹马

  • Turn 1: 添加文字 “HORSES”

  • Turn 2: 把棕色的马换成一只鹿

  • Turn 3: 把白马的毛色改成棕色


听起来很简单,对吧?但当我们让各家顶尖模型来完成这三步时,结果却大不相同。

GPT-Image-1(OpenAI) 指令执行得不错,但背景和细节越来越不一致。

Qwen-Image-Edit(阿里) 在视觉质量和一致性上双双失手,第三轮后出现明显“过曝感”。

FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三轮“白马的毛色改成棕色”执行失败。

Nano Banana(Google Gemini 2.5 Flash) 表现最平衡——稳、准、无明显短板。

在刚才的对比中,我们看到不同模型在多轮编辑下表现差异明显。那 EdiVal-Agent 是如何实现自动评测、做到“既懂图又懂语义”的呢?答案来自它精心设计的三步工作流。


1、图像分解(Decomposition)

第一步,EdiVal-Agent 会让大模型(如 GPT-4o)先“看懂”一张图片。它会自动识别出图中所有可见对象,并为每个对象生成结构化的描述——包括 颜色 (color)、材质 (material)、物体上是否存在文字 (text)、数量 (count) 和前景属性 (foreground)。

这些对象被汇总成一个对象池(Object Pool),并通过物体检测器进行验证过滤,为后续指令生成和评测打下基础。

2、指令生成(Instruction Generation)

第二步,EdiVal-Agent 根据场景自动生成多轮编辑指令。 它拥有覆盖 9 种编辑类型、6 个语义类别 的指令体系,包括:

添加(add)、删除(remove)、替换(replace)、 改颜色(color alter)、改材质(material alter)、改文字(text change)、移动位置(position change)、改数量(count change)、换背景(background change)。

EdiVal-Agent 会动态维护三个对象池:

  • All Objects Pool(所有出现过的对象)

  • Available Objects Pool(当前可编辑的对象)

  • Unchanged Objects Pool(尚未被修改的对象)

在每一轮编辑中,智能体都会:

  • 随机选取指令类型;

  • 挑选合适对象;

  • 生成自然语言编辑指令;

  • 更新对象池状态。

默认设置为三轮(Turn 1 – Turn 3),也可以扩展到更长链条,实现更多轮可组合编辑。

3、 自动评测(Evaluation)

最后一步,EdiVal-Agent 从三个维度评估模型表现:

  • EdiVal-IF(Instruction Following) 判断模型是否准确执行指令——例如“把白马换成鹿”是否真的完成。 对于符号任务(如位置或数量变化),使用 Grounding-DINO 等开放词汇检测器进行几何验证; 对于语义任务(如颜色或背景变化),则结合物体检测器和VLM 进行语义核对。

  • EdiVal-CC(Content Consistency) 测量未被编辑的部分是否保持一致。 它计算背景区域(排除 All Objects Pool 中的所有物体)与未修改对象(属于 Unchanged Objects Pool 的物体)之间的语义相似度,以确保模型不会“误伤”无关区域。比如,下图中 GPT-Image-1 编辑后的 STOP 标志 发生了明显变化,而 Nano Banana 则更真实地保持了内容一致性。

  • EdiVal-VQ(Visual Quality) 使用 Human Preference Score v3 评估整体视觉质量,量化生成结果的美观度与自然度。

最终综合指标 EdiVal-O 通过几何平均融合 EdiVal-IF 和 EdiVal-CC,平衡“是否听话”与“是否稳定”。


为什么不把 EdiVal-VQ 纳入总体分数?

在评估中,我们发现“视觉质量(EdiVal-VQ)”虽然重要,但并不适合直接计入综合得分。以指令 “将背景换成图书馆” 为例:

  • GPT-Image-1 会倾向于“美化”图像,让整体更光亮、更清晰,从而提升审美得分。

  • FLUX.1-Kontext-max 则选择“保真”策略,尽量保持原始风格,只替换必要区域。


这说明不同模型在面对同一任务时,有的更追求视觉美感(beautification),有的更注重和保真(preservation)。由于在图像编辑中,是否应追求“美化”仍存在争议,因此我们未将 EdiVal-VQ 纳入最终评测指标。

EdiVal-Agent 的人类一致性验证

EdiVal-Agent评测结果能否“想法与人一致”?

我们设计了一项人类一致性实验(Human Agreement Study),来检验 EdiVal-Agent 的评测结果,是否真正符合人类判断。结果如下:


EdiVal-Agent 的指标 EdiVal-IF 与人类判断的平均一致率高达 81.3%。相比之下,传统评测方法的表现明显更低:

  • VLM-only(Qwen-2.5-VL):75.2%

  • CLIP-dir(CLIP-directional similarity):68.9%

换句话说,EdiVal-Agent 不仅能“算得对”,更能“想得像人”。此外,人工之间的一致率为 85.5%,这意味着——EdiVal-Agent 的表现已接近人类评测的上限。

为什么 EdiVal-IF 与人类判断更为一致?

符号任务更精准。对于 “添加 / 删除 / 替换 / 移动 / 改数量” 等符号(symbolic)任务,EdiVal-IF 使用 Grounding-DINO 精确检测目标是否真的出现、移动或消失,几乎没有歧义。相比之下,VLM 模型则容易受到 幻觉(Hallucination) 与 空间推理(Spatial Reasoning) 的限制。

语义任务更智能。 对于 “改颜色 / 改材质 / 改文字 / 换背景” 等语义(semantic)任务,EdiVal-IF 将 VLM(Qwen-2.5-VL) 与 对象检测(Object Detection) 相结合,先定位,再推理,让模型真正做到“对着图回答问题”。

结果表明,这种检测 + 推理融合的方式,比单纯让大模型“看图说话”更加稳定、可靠。

谁才是最强图像编辑模型?

在本文提出的多轮图像编辑 EdiVal-Bench上,EdiVal-Agent系统对比了 13 个代表性模型,涵盖闭源与开源、in-context和context-free,Flow Matching与Diffusion等不同范式。结果如下:


其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型内容一致性的能力。EdiVal-O是两者的几何平均值,为最终评分。可以看到:

  • Seedream 4.0 在指令遵循能力上遥遥领先,并且在最终评分上全面超越国际闭源模型,排名第一;

  • Nano Banana 在速度(Latency)与质量上达成完美平衡,在内容一致性上尤为出色,排名第二;

  • GPT-Image-1 在指令遵循能力上出色,因追求美观(见上文)而牺牲一致性,位列第三;

  • Qwen-Image-Edit 出现典型“曝光偏差(exposure bias)”:在编辑次数变多时越改越偏,其在开源模型中排名第一,总排名第六。

评测结果也解释了为什么ChatGPT-4o在吉卜力风格迁移指令遵循和美化效果出圈,而Nano Banana在OOTD这些背景/物体一致性要求比较高的任务上出圈。

更多实验结果与详细分析(比如关于in-context和complex editing),欢迎阅读原文。

关于作者

论文作者成员来自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,两位共同一作分别是陈天钰,张雅思。

陈天钰,得克萨斯大学奥斯汀分校(UT-Austin)统计系博士生(三年级),导师为周名远教授。硕士毕业于芝加哥大学,本科毕业于复旦大学统计系。研究方向涵盖生成模型、强化学习、因果推断与表示学习等,目前与 Microsoft GenAI 开展长期合作研究。

张雅思,加州大学洛杉矶分校(UCLA)统计与数据科学系博士生(四年级),师从吴英年教授与 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模态学习、大模型后训练与计算机视觉,曾在 Amazon AWS AI Labs 与 Google Research 从事相关研究工作。

值得一提的是,两位共一本科均毕业于复旦大学。



张雅思

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
存储芯片"涨价潮"持续升温,千亿龙头股价创新高

存储芯片"涨价潮"持续升温,千亿龙头股价创新高

21世纪经济报道
2025-11-13 11:38:03
过去72小时,又有三款SUV公布了价格

过去72小时,又有三款SUV公布了价格

侃故事的阿庆
2025-11-13 16:36:54
谷立言拜会郑丽文,当面重申美国立场,谈话内容曝光,赖清德要慌

谷立言拜会郑丽文,当面重申美国立场,谈话内容曝光,赖清德要慌

南宫一二
2025-11-13 09:48:19
快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

悬案解密档案
2025-11-06 10:39:29
32岁女教师跳楼身亡!俩娃没了妈,最大8岁,丈夫提2诉求却遭网暴

32岁女教师跳楼身亡!俩娃没了妈,最大8岁,丈夫提2诉求却遭网暴

揽星河的笔记
2025-11-12 15:29:49
曾国藩的识人术:饭桌上的这种人,切记不可深交,否则后患无穷

曾国藩的识人术:饭桌上的这种人,切记不可深交,否则后患无穷

牛魔王与芭蕉扇
2025-11-11 10:16:23
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
刚发表错误涉台言论,高市早苗又狂妄叫嚣,还打算发展核武器?

刚发表错误涉台言论,高市早苗又狂妄叫嚣,还打算发展核武器?

顾史
2025-11-13 16:19:47
22岁女生爱上57岁空巢老头,同居当晚女生干活停不下来:别离开我

22岁女生爱上57岁空巢老头,同居当晚女生干活停不下来:别离开我

今天说故事
2025-09-04 16:03:21
5000元,女同事租我当男友回家过年,第一晚她就要假戏真做

5000元,女同事租我当男友回家过年,第一晚她就要假戏真做

农村情感故事
2025-11-13 07:12:19
菲律宾无论如何也想不到,初费尽心思安排的破船,却为中国铺了路

菲律宾无论如何也想不到,初费尽心思安排的破船,却为中国铺了路

吕彏极限手工
2025-11-10 08:11:19
美媒:美国在委内瑞拉海岸动用无人机和F-35!此前美军“福特”号航母已进入加勒比海

美媒:美国在委内瑞拉海岸动用无人机和F-35!此前美军“福特”号航母已进入加勒比海

每日经济新闻
2025-11-12 23:39:07
钱再多有什么用,33岁迪丽热巴连夜取消拍摄,知情人透露最新消息

钱再多有什么用,33岁迪丽热巴连夜取消拍摄,知情人透露最新消息

寻墨阁
2025-11-12 20:50:23
美西方失望了!中国扛住了空间碎片撞击,神舟二十号准备执行返回

美西方失望了!中国扛住了空间碎片撞击,神舟二十号准备执行返回

普陀动物世界
2025-11-13 13:49:22
韩媒称中国游客在韩国景福宫石墙下大小便…

韩媒称中国游客在韩国景福宫石墙下大小便…

奋斗在韩国
2025-11-12 14:22:03
全运会乒乓球:男单4强出炉2席!林诗栋拒绝大爆冷,4:1获胜晋级

全运会乒乓球:男单4强出炉2席!林诗栋拒绝大爆冷,4:1获胜晋级

国乒二三事
2025-11-13 12:13:30
全球最大的无主领土,面积比中国还大,日本早已开始布局

全球最大的无主领土,面积比中国还大,日本早已开始布局

博览历史
2025-10-05 19:05:13
六连败!最后8秒,哈登从替补席起身,直接走向球员通道

六连败!最后8秒,哈登从替补席起身,直接走向球员通道

担酒
2025-11-13 14:03:00
全运会乒乓:女单4强对阵出炉,世界冠军4-2逆转,陈梦又剃光头

全运会乒乓:女单4强对阵出炉,世界冠军4-2逆转,陈梦又剃光头

近史博览
2025-11-13 16:59:35
我的天!刘亦菲真人居然长这样?素颜我直接看傻了

我的天!刘亦菲真人居然长这样?素颜我直接看傻了

草莓解说体育
2025-11-10 06:26:42
2025-11-13 17:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1375386文章数 4467关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

亲子
健康
教育
时尚
军事航空

亲子要闻

This 28-day-old baby raises his tiny hand like a l...

血液科专家揭秘白血病七大误区

教育要闻

银川科技学院就业深造怎么样?高就业率+百余所海外名校,稳了!

今年最好看的4件大衣!

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版