网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
刚刚!美股突然大跳水!发生什么了?

刚刚!美股突然大跳水!发生什么了?

龙行天下虎
2025-11-20 01:47:15
为何感冒总先“攻击”咽喉??教你几招,把病毒“打回去”!

为何感冒总先“攻击”咽喉??教你几招,把病毒“打回去”!

猫大夫医学科普
2025-11-20 06:48:14
“亚洲最大医院”郑大一附院西院区今起停诊,投入运行不到一年半

“亚洲最大医院”郑大一附院西院区今起停诊,投入运行不到一年半

澎湃新闻
2025-11-20 11:22:27
忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

趣味八卦
2025-11-20 04:26:57
中央批准:中候补任副省级城市市委书记!浙江三地市委书记近期调整

中央批准:中候补任副省级城市市委书记!浙江三地市委书记近期调整

上观新闻
2025-11-20 17:48:08
甲流特效药:好是真好,贵是真贵!广东家长晒账单:两粒222.3元

甲流特效药:好是真好,贵是真贵!广东家长晒账单:两粒222.3元

小李睡不醒了
2025-11-18 07:20:20
中方是否接受日方“涉台”言论的最新解释?外交部:收回错误言论

中方是否接受日方“涉台”言论的最新解释?外交部:收回错误言论

澎湃新闻
2025-11-20 15:24:26
大超说媒也死了

大超说媒也死了

求实处
2025-11-19 23:55:28
先升后降!陕西即将大降温

先升后降!陕西即将大降温

鲁中晨报
2025-11-20 16:13:16
4枚导弹打醒了俄罗斯,普京向北约打出明牌,每10天炸乌克兰一轮

4枚导弹打醒了俄罗斯,普京向北约打出明牌,每10天炸乌克兰一轮

文雅笔墨
2025-11-20 09:02:17
朝鲜第一家现代化地方医院!金正恩穿过拥挤的人群

朝鲜第一家现代化地方医院!金正恩穿过拥挤的人群

IN朝鲜
2025-11-20 14:42:31
吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

奥拜尔
2025-11-19 22:57:40
中日一战不可避免,日本达成一致:解放军若武统,日本定武力介入

中日一战不可避免,日本达成一致:解放军若武统,日本定武力介入

胖福的小木屋
2025-11-20 00:02:51
毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

李昕言温度空间
2025-11-09 14:50:17
杨颖送子去黄晓明妈妈家过秋假,并和前婆婆聚餐,全程微笑情商高

杨颖送子去黄晓明妈妈家过秋假,并和前婆婆聚餐,全程微笑情商高

喜欢历史的阿繁
2025-11-21 01:01:53
王成兼任宁波市委书记,哪些城市“一把手”目前由省委副书记高配兼任?

王成兼任宁波市委书记,哪些城市“一把手”目前由省委副书记高配兼任?

极目新闻
2025-11-20 19:57:05
国家社科基金神成果:男人阴茎越短,智商越高

国家社科基金神成果:男人阴茎越短,智商越高

尚曦读史
2025-11-19 10:33:10
台积电:我们已经顾不上美国工厂了,大陆再不给稀土,大家都得完

台积电:我们已经顾不上美国工厂了,大陆再不给稀土,大家都得完

boss外传
2025-10-28 08:00:05
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

上海约饭局
2025-10-31 15:32:01
2025-11-21 04:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11719文章数 176336关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

家居
数码
时尚
健康
军事航空

家居要闻

黑白极简 慵懒通透空间

数码要闻

一键击毁芯片无法恢复 十铨科技发布全球首款支持销毁的SSD

全球颜值最高女孩集体掀桌,网友:太爽了

警惕超声报告这六大"坑"

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版