网易首页 > 网易号 > 正文 申请入驻

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

0
分享至

KRIS-Bench团队 投稿
量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。



借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。



基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。



  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。



四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。



  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。



借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

健身狂人
2025-11-19 00:35:36
多部门印发实施方案 支持北京提振和扩大消费

多部门印发实施方案 支持北京提振和扩大消费

中国经济网
2025-11-19 07:58:03
江苏科技大学博导郭某涉嫌学术造假、侵占国家科研经费等被带走调查,简历多处与事实不符,校方回应:已离职

江苏科技大学博导郭某涉嫌学术造假、侵占国家科研经费等被带走调查,简历多处与事实不符,校方回应:已离职

新浪财经
2025-11-18 20:21:02
香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

我爱追港剧
2025-11-18 12:36:02
开拓者110-127不敌太阳,杨瀚森生涯新高9分5板3助

开拓者110-127不敌太阳,杨瀚森生涯新高9分5板3助

懂球帝
2025-11-19 15:24:14
要降温了!下周,较强冷空气影响北京!

要降温了!下周,较强冷空气影响北京!

BRTV新闻
2025-11-19 12:51:00
帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

狸猫之一的动物圈
2025-10-13 10:09:58
宁波5月龄女婴手术离世后续!泪照看哭人,手术黑幕曝光引众怒

宁波5月龄女婴手术离世后续!泪照看哭人,手术黑幕曝光引众怒

鋭娱之乐
2025-11-18 14:45:57
森林北也没想到,公布体检报告后,口碑一夜之间反转,被骂翻了!

森林北也没想到,公布体检报告后,口碑一夜之间反转,被骂翻了!

心静物娱
2025-11-19 11:19:59
全运会乒乓球:女团铜牌出炉!上海3:0,登上领奖台,王曼昱缺席

全运会乒乓球:女团铜牌出炉!上海3:0,登上领奖台,王曼昱缺席

国乒二三事
2025-11-19 11:54:30
忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

起喜电影
2025-11-18 01:24:21
几个男人能做到?28岁樊振东不慎双膝跪地 仅靠核心力量原地弹起

几个男人能做到?28岁樊振东不慎双膝跪地 仅靠核心力量原地弹起

风过乡
2025-11-19 10:23:11
吴石夫人被审讯后崩溃,供出关键名单,谷正文搜查毛人凤看后失声

吴石夫人被审讯后崩溃,供出关键名单,谷正文搜查毛人凤看后失声

不易一字
2025-11-13 17:21:38
叙利亚服软,将向中国移交数百名中国西北地区少数民族圣战分子

叙利亚服软,将向中国移交数百名中国西北地区少数民族圣战分子

我心纵横天地间
2025-11-19 13:10:43
傻眼了!女子网购三件价格差了3倍的同款毛衣,收到货一对比懵了

傻眼了!女子网购三件价格差了3倍的同款毛衣,收到货一对比懵了

另子维爱读史
2025-11-18 21:46:05
世界太魔幻,高中学历骗子成大学首席科学家, 怎么给学生上课的

世界太魔幻,高中学历骗子成大学首席科学家, 怎么给学生上课的

恪守原则和底线
2025-11-19 10:49:58
学术造假惊天大案!郭某英文名“Wei Guo”与海外华裔学者同名…

学术造假惊天大案!郭某英文名“Wei Guo”与海外华裔学者同名…

火山诗话
2025-11-19 09:25:00
不断挑拨离间!孙颖莎忍无可忍,终于道出与王曼昱“真实关系”

不断挑拨离间!孙颖莎忍无可忍,终于道出与王曼昱“真实关系”

东方不败然多多
2025-11-18 13:43:01
中国撤侨从不收费,唯独这次破例,网友:活该,就应该多收一点!

中国撤侨从不收费,唯独这次破例,网友:活该,就应该多收一点!

小lu侃侃而谈
2025-09-21 19:34:17
破案了!终于知道小s为何不喜欢小玥儿姐弟!原来大s早就说过答案

破案了!终于知道小s为何不喜欢小玥儿姐弟!原来大s早就说过答案

小娱乐悠悠
2025-11-19 12:49:45
2025-11-19 15:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
11706文章数 176334关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

男子吐槽乱插队被80多岁老人打伤 对方喊话"谁敢拦我"

头条要闻

男子吐槽乱插队被80多岁老人打伤 对方喊话"谁敢拦我"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

手机
旅游
数码
家居
艺术

手机要闻

华为Mate X7折叠屏手机今日开启预订:搭载麒麟9030芯片

旅游要闻

安徽肥东:新地名串出新风景

数码要闻

闪存全面大幅涨价 最高涨幅达38.46%

家居要闻

水岸美学 书香人文生活

艺术要闻

启功:我是画家,但书名超过了画名

无障碍浏览 进入关怀版