网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

阿器谈史
2025-11-12 17:24:46
2025-11-18 02:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
11691文章数 176331关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

韩国向日本表示强烈抗议 中方表态

头条要闻

韩国向日本表示强烈抗议 中方表态

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

时尚
艺术
家居
手机
本地

王妃精致到发丝,王子直接变秃子

艺术要闻

惊艳!全球百大美女变身顶级辣妈,居然在中国!

家居要闻

回廊通道 强化空间秩序

手机要闻

华为第一款Pro Max!华为Mate 80 Pro Max四色官图公布

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

无障碍浏览 进入关怀版