网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11月16日晚间,多家上市公司发布重大利好利空好消息

11月16日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2025-11-16 18:24:32
G7集体对华发难,要求中国做出承诺,话音刚落,中方直接反将一军

G7集体对华发难,要求中国做出承诺,话音刚落,中方直接反将一军

阿七说史
2025-11-15 17:58:40
三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

文雅笔墨
2025-11-14 00:13:42
高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

环球网资讯
2025-11-16 20:10:06
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
震惊!杨兰兰案第四次庭审,惊爆全网

震惊!杨兰兰案第四次庭审,惊爆全网

热点菌本君
2025-11-16 17:48:30
著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

极目新闻
2025-11-16 16:38:13
内蒙古包头举办“躺平大赛”,54人已躺超24小时,主办方:比赛无截止时间,有人穿纸尿裤参赛

内蒙古包头举办“躺平大赛”,54人已躺超24小时,主办方:比赛无截止时间,有人穿纸尿裤参赛

极目新闻
2025-11-16 13:37:28
苏丹一地发生屠城,血迹太空可见

苏丹一地发生屠城,血迹太空可见

大风新闻
2025-11-16 16:06:05
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

环球时报国际
2025-11-16 15:34:27
61岁林雪被曝倾家荡产,欠百亿巨债逃离香港,本人发声:有的是钱

61岁林雪被曝倾家荡产,欠百亿巨债逃离香港,本人发声:有的是钱

天天热点见闻
2025-11-16 15:58:36
不被报道的伊拉克,现在究竟怎么样?

不被报道的伊拉克,现在究竟怎么样?

难得君
2025-11-16 12:23:41
山西狗咬人事件,邻居家的监控帮申某家大忙了!对方轮番上去打砸

山西狗咬人事件,邻居家的监控帮申某家大忙了!对方轮番上去打砸

火山诗话
2025-11-16 08:12:14
高市收辞职通牒,官宅已被围,一个时代或结束,中方向钓鱼岛派人

高市收辞职通牒,官宅已被围,一个时代或结束,中方向钓鱼岛派人

时时有聊
2025-11-16 16:12:42
全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

国乒二三事
2025-11-16 12:06:06
哪位网友没事做竟然给金晨P胸?直接破坏了排骨胸的美感

哪位网友没事做竟然给金晨P胸?直接破坏了排骨胸的美感

喜欢历史的阿繁
2025-11-16 16:04:17
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
雷军刚刚连发多条微博

雷军刚刚连发多条微博

每日经济新闻
2025-11-16 14:58:06
全运会女子50米蝶泳:张雨霏25秒61夺冠,斩获个人单项第2金

全运会女子50米蝶泳:张雨霏25秒61夺冠,斩获个人单项第2金

全景体育V
2025-11-16 19:09:41
上海寒潮预警:骤降9-11℃!近期很多人中招,还有人发烧硬扛致双目失明!重要提醒

上海寒潮预警:骤降9-11℃!近期很多人中招,还有人发烧硬扛致双目失明!重要提醒

环球网资讯
2025-11-16 21:13:20
2025-11-16 21:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11687文章数 176331关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

日高层:高市早苗今后应该不会再有此类发言

头条要闻

日高层:高市早苗今后应该不会再有此类发言

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

本地
时尚
家居
数码
游戏

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

家居要闻

现代简逸 寻找生活的光

数码要闻

内存价格暴涨,半成品台式机都来了!笔记本也会遭殃吗?

育碧为《纪元117:罗马和平》AI图像致歉并承诺替换

无障碍浏览 进入关怀版