网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚洲杯预选赛:0-1,人口第一大国队遭世界第183掀翻,5轮0胜垫底

亚洲杯预选赛:0-1,人口第一大国队遭世界第183掀翻,5轮0胜垫底

侧身凌空斩
2025-11-18 23:59:03
美媒:快船管理层和伦纳德都辜负了哈登,他完全有理由愤怒

美媒:快船管理层和伦纳德都辜负了哈登,他完全有理由愤怒

懂球帝
2025-11-18 17:06:02
高市早苗的丈夫叫山本拓,比她大9岁还瘫痪了,两人没有子女

高市早苗的丈夫叫山本拓,比她大9岁还瘫痪了,两人没有子女

南宫一二
2025-10-06 10:43:46
被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

Home范
2025-11-11 13:57:32
饺子拒绝金鸡奖,揭开内娱最大笑话:154亿票房,不配一个奖?

饺子拒绝金鸡奖,揭开内娱最大笑话:154亿票房,不配一个奖?

花心电影
2025-11-17 12:00:18
高市挑衅,日本有事就是美国有事?外媒:美军F35B登上日本护卫舰

高市挑衅,日本有事就是美国有事?外媒:美军F35B登上日本护卫舰

军机Talk
2025-11-19 09:59:38
香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

我爱追港剧
2025-11-18 12:36:02
许绍雄出殡丨继子低调返港送别 父子情超越血缘界限 为太太龙嬿而将继子视如己出:介意什么?

许绍雄出殡丨继子低调返港送别 父子情超越血缘界限 为太太龙嬿而将继子视如己出:介意什么?

TVB资讯台
2025-11-18 22:37:45
北电校花好漂亮, 身高169cm,体重50kg 美的让人移不开眼

北电校花好漂亮, 身高169cm,体重50kg 美的让人移不开眼

喜欢历史的阿繁
2025-10-27 09:18:12
解晓东,经抢救无效去世!

解晓东,经抢救无效去世!

华人星光
2025-11-16 13:19:17
著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

极目新闻
2025-11-16 16:38:13
奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

十点街球体育
2025-11-18 06:00:03
佩戴的项链有高科技违规?陈梦戴项链比赛原因找到,规则曝光

佩戴的项链有高科技违规?陈梦戴项链比赛原因找到,规则曝光

乐聊球
2025-11-18 14:28:18
昨夜美股血流成河,科技股全线溃败,今天A股要遭殃?

昨夜美股血流成河,科技股全线溃败,今天A股要遭殃?

财报翻译官
2025-11-19 05:41:48
王牌女间谍潜伏我国40年,嫁给矿工生7个娃,为何她却选择了背叛

王牌女间谍潜伏我国40年,嫁给矿工生7个娃,为何她却选择了背叛

睡前讲故事
2025-11-17 12:02:32
江苏省副省长李忠军,任南京市代市长

江苏省副省长李忠军,任南京市代市长

观察者网
2025-11-18 18:34:20
侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

花心电影
2025-11-18 13:57:29
初婚人口跌破1000万

初婚人口跌破1000万

谭谈投研
2025-11-17 12:17:54
对于汪士钦的红牌男记者都在批评,而女记者李璇的说法与众不同

对于汪士钦的红牌男记者都在批评,而女记者李璇的说法与众不同

越岭寻踪
2025-11-19 08:19:37
南部战区空军重磅发布:《别太狂》!

南部战区空军重磅发布:《别太狂》!

新京报
2025-11-19 09:57:12
2025-11-19 10:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
11702文章数 176334关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

南部空军发布"别太狂":我和战机凌空一击 将它"干掉"

头条要闻

南部空军发布"别太狂":我和战机凌空一击 将它"干掉"

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

大规模宕机!美国多个网站崩了

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

艺术
健康
游戏
教育
家居

艺术要闻

墙上9字书法太难,12人识不全,学书法还有用吗?

警惕超声报告这六大"坑"

《湮灭之潮》新内容预热 将在Xbox发布会亮相

教育要闻

孩子的英语学习

家居要闻

彰显奢华 意式经典风格

无障碍浏览 进入关怀版