网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白城地砖铺贴河床?当地回应:系必要的工程措施

白城地砖铺贴河床?当地回应:系必要的工程措施

极目新闻
2025-11-17 20:15:14
鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

室内设计师有料儿
2025-11-14 21:32:02
雷军心态崩了!小米汽车很安全,都是有人在故意抹黑

雷军心态崩了!小米汽车很安全,都是有人在故意抹黑

热点菌本君
2025-11-17 15:51:39
破产后,王中磊搬新家还住别墅,院子稀稀拉拉,老婆叹回不到以前

破产后,王中磊搬新家还住别墅,院子稀稀拉拉,老婆叹回不到以前

阿讯说天下
2025-11-16 15:01:59
出差2个月把家中地暖断掉,楼上却在群里骂我,她家楼上也断掉地暖

出差2个月把家中地暖断掉,楼上却在群里骂我,她家楼上也断掉地暖

悬案解密档案
2025-11-03 10:32:45
南京到无锡规划地铁通联?最新回应

南京到无锡规划地铁通联?最新回应

江南晚报
2025-11-17 21:17:03
G20峰会遇冷,“上三常”元首同时缺席,全球格局将如何演变?

G20峰会遇冷,“上三常”元首同时缺席,全球格局将如何演变?

优趣纪史记
2025-11-17 10:10:00
中央纪委国家监委网站:3人被查,3人被处分

中央纪委国家监委网站:3人被查,3人被处分

鲁中晨报
2025-11-17 23:10:03
乌军大捷,俄没钱的时候战争就会停止

乌军大捷,俄没钱的时候战争就会停止

难得君
2025-11-16 16:47:26
牛莉整容失败?母女被偶遇,女儿胸围暴涨,为防骚扰坐女性专车

牛莉整容失败?母女被偶遇,女儿胸围暴涨,为防骚扰坐女性专车

八星人
2025-11-17 15:04:56
狗主人遭反杀案:若国内有“无限防卫”,就不会有诸多争议

狗主人遭反杀案:若国内有“无限防卫”,就不会有诸多争议

胡言炫语
2025-11-18 01:36:03
中国车企突然遭遇缺芯威胁

中国车企突然遭遇缺芯威胁

后视镜里de未来
2025-11-17 10:50:25
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

阿废冷眼观察所
2025-11-16 00:59:32
上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

文史道
2025-11-15 06:45:03
鸡排哥找不回自己,派头十足令人讨厌

鸡排哥找不回自己,派头十足令人讨厌

陈意小可爱
2025-11-18 03:01:41
见了美方后,郑丽文立场变了:台湾是“国家”,坚持“武力保台”

见了美方后,郑丽文立场变了:台湾是“国家”,坚持“武力保台”

顾史
2025-11-17 12:30:10
沙漠下面几乎全是石油,我国缺油年年大量进口,那为啥不开采呢?

沙漠下面几乎全是石油,我国缺油年年大量进口,那为啥不开采呢?

扶苏聊历史
2025-11-17 16:43:13
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

锅子篮球
2025-11-17 20:20:53
2025-11-18 11:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11692文章数 176332关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

德媒:德副总理是"在艰难时期"访问中国 暗示不寻常

头条要闻

德媒:德副总理是"在艰难时期"访问中国 暗示不寻常

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

手机
旅游
教育
本地
亲子

手机要闻

苹果令人羡慕,小米、vivo大差不差

旅游要闻

见者好运!云南丽江玉龙雪山迎来“日照金山”最佳观赏季

教育要闻

雅思道歉!2023–2025部分成绩失准,可能被重算!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

亲子要闻

程晓玥怀二胎,孕肚明显,体重控制好,为双11推迟检查

无障碍浏览 进入关怀版