网易首页 > 网易号 > 正文 申请入驻

阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

0
分享至



尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。



SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升



  • 论文标题:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
  • 论文链接:https://arxiv.org/abs/2601.20354
  • 论文代码:https://github.com/AMAP-ML/SpatialGenEval

核心挑战:目前 T2I 模型空间认知 “浅表化” 与逻辑缺失

现有文生图模型虽然能够很好地完成 “生成什么”(What)的语义对齐,但在处理 “空间位置在哪里”(Where)、“空间如何排列”(How)以及物理世界中的 “空间交互逻辑”(Why)时,面临着从 “基础感知” 到 “高阶推理” 的全方位挑战,包括:

1. 空间基础的 “属性漂移” 与缺失:模型虽然能画出物体,但在信息密集提示词下,常出现物体漏画或属性绑定错误,无法维持 “万物各司其职” 的基础对齐能力。

2. 空间感知的 “几何偏见”:在处理物体精确位置、朝向及特定排列布局时,模型往往倾向于生成 “默认姿态”(如正面视图),难以跨越 2D 画布实现精准的空间定位。

3. 空间推理的 “逻辑盲区”:这是当前模型最大的短板。在涉及相对数值比较(如 “红椅比蓝椅大两倍”)、3D 遮挡关系及物理距离邻近性时,模型得分接近随机猜测,表明其缺乏对真实物理世界层级和深度的认知。

4. 空间交互的 “动态失真”:模型难以捕捉物体间的动态瞬间(如跳跃中的足球)或物理因果逻辑(如撞击导致的破碎),无法将潜藏的物理动力学转化为逻辑自洽的视觉图像。



上:当前生成模型在感知、推理和交互上的错误样例;下:当前评估基准存在信息稀疏 / 粗粒度 yes-or-no 评估

SpatialGenEval:涉及空间基础、感知、推理和交互的空间智能 “全科扫描”

为了系统化地定义和评估文生图模型 “空间智能” 能力,研究团队构建了一个层次化框架,将空间智能解构为 4 大领域及 10 个关键子维度:

1. 空间基础 (S1/S2):多目标物体类别(S1)、多目标属性绑定(S2)。

2. 空间感知 (S3/S4/S5):空间位置(S3)、空间朝向(S4)与空间布局(S5)。

3. 空间推理 (S6/S7/S8):空间大小 / 长度 / 高矮等比较(S6)、空间邻近性(S7)与空间位置遮挡(S8)。

4. 空间交互 (S9/S10):空间运动交互(S9)与空间因果交互(S10)。

该基准测试覆盖自然、室内、户外、人类活动及艺术设计等 25 个现实世界场景,为其精心构建了 1,230 条 长文本、信息密集型提示词。每个提示词均深度融合了上述从基础属性、布局到高阶遮挡、因果推理等 10 个空间子领域及对应全维度问答。值得注意的是,每个提示词长度约 60 词,允许同时兼顾依赖 CLIP 编码模型(77 tokens 限制)和保持高度信息密集。



SpatialGenEval 评估数据构建流程



SpatialGenEval 所有 10 个空间维度的提示词及其问题展示



核心发现:空间推理仍是主要瓶颈

研究团队对 23 款前沿的开源与闭源 T2I 模型进行了详尽评估,揭示了以下行业现状:

  • 空间推理是核心薄弱环节:在涉及比较和遮挡的空间推理子任务中,多数模型的得分仅在 30% 左右,接近随机猜测水平(20%),这表明目前的模型普遍缺乏对 3D 场景结构和逻辑关系的理解。
  • 开源模型正快速追赶:评测显示,最强的开源模型 Qwen-Image (60.6%) 表现已与顶级闭源模型 Seed Dream 4.0 (62.7%) 基本持平,但均仅达到及格线水平,空间智能仍有巨大提升空间。
  • 强大的文本编码器至关重要:使用高性能 LLM(如 T5 或大型语言模型)作为文本编码器的模型(如 FLUX.1),在解析复杂空间指令时显著优于仅依赖 CLIP 的模型。



基于 Qwen2.5-VL-72B-Instruct 的自动化评估结果



左:所有评估模型的错误类型分布;右:高优模型的错误类型分布

数据中心范式:提升模型空间智能的有效路径

除了评估,该研究还提出了一种基于已有生成图像的改进方案。团队通过多模态大模型(MLLM)重写提示词以确保图文一致性,构建了包含 15,400 对图文数据的 SpatialT2I 数据集。对主流三大类模型(Diffusion-based, AR-based,Unified-based 模型)进行监督微调结果在空间评估指标有显著增益,生成的图像在物理逻辑和空间布局上更具真实感。



微调模型后的生成结果对比

总结与展望

SpatialGenEval 为 T2I 模型从 “美学生成” 迈向 “逻辑感知” 建立了一条新的评估路线,只有让模型真正理解 “万物各得其所 (Everything in its place)”,生成式 AI 才能在机器人辅助、室内设计、自动驾驶仿真等对空间维度有严苛要求的领域中释放真正的生产力。

作者团队介绍

阿里高德的机器学习研发部,承接公司重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的 AI 智能化等,部门研究领域广泛,包括但不限于以下方向:(1) 多模态大模型;(2) 图像生成 / 编辑美化;(3) 视频生成 / 理解;(4) Agent; (5) 时空数据挖掘;(6) 智能推荐;(7) 高性能推理等。团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,多篇论文入选 paper digest 最有影响力论文名单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特鲁姆普对香港世界大奖赛非常失望!墨菲:很多人不知道这项赛事

特鲁姆普对香港世界大奖赛非常失望!墨菲:很多人不知道这项赛事

世界体坛观察家
2026-02-24 09:11:40
存款100万后,请立刻放下这三个习惯。

存款100万后,请立刻放下这三个习惯。

流苏晚晴
2026-02-24 18:54:06
突发!武汉知名宝马4s店被申请破产!

突发!武汉知名宝马4s店被申请破产!

三农老历
2026-02-24 22:06:15
暴涨!有相机价格翻10倍,根本抢不到,杭州姑娘傻眼,马上翻出家里老古董

暴涨!有相机价格翻10倍,根本抢不到,杭州姑娘傻眼,马上翻出家里老古董

环球网资讯
2026-02-22 16:48:12
电影《夜王》冲破4500万!黄子华评英国不留情面,即食面赢晒全场

电影《夜王》冲破4500万!黄子华评英国不留情面,即食面赢晒全场

情感大头说说
2026-02-24 01:10:59
美媒评26年自由市场10大控卫!火箭队范乔丹屈居第5 哈登意外落选

美媒评26年自由市场10大控卫!火箭队范乔丹屈居第5 哈登意外落选

锅子篮球
2026-02-24 22:10:05
10万志愿军被包围,彭老总无从下手,毛主席:放弃救援,以攻代守

10万志愿军被包围,彭老总无从下手,毛主席:放弃救援,以攻代守

谈古论今历史有道
2026-02-23 12:00:03
确认访华后,特朗普突然变脸对中国加税!却迎来两大噩耗浇灭野心

确认访华后,特朗普突然变脸对中国加税!却迎来两大噩耗浇灭野心

阿讯说天下
2026-02-24 16:15:29
姚笛再次复出!她变美了不少,脸上的哀愁消失了,整个人变化很大

姚笛再次复出!她变美了不少,脸上的哀愁消失了,整个人变化很大

背包旅行
2026-02-23 15:02:37
76%日本人支持?高市早苗点名中国,话音刚落,中方连出2重击!

76%日本人支持?高市早苗点名中国,话音刚落,中方连出2重击!

纾瑶
2026-02-24 17:05:07
被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

被称为“中国最大忽悠”的贾跃亭,似乎要翻身了。

流苏晚晴
2026-02-19 16:19:47
iPhone 18 Pro灵动岛缩小35%,将首发搭载基于台积电2nm工艺制造的A20 Pro芯片

iPhone 18 Pro灵动岛缩小35%,将首发搭载基于台积电2nm工艺制造的A20 Pro芯片

中国能源网
2026-02-24 12:01:06
当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

阅微札记
2026-02-24 17:06:05
县城消费「限时繁荣」了十天

县城消费「限时繁荣」了十天

镜相工作室
2026-02-24 09:06:36
哪一瞬间你觉得众生皆苦?网友:怎么在外国很少听到这种事情

哪一瞬间你觉得众生皆苦?网友:怎么在外国很少听到这种事情

带你感受人间冷暖
2026-02-22 08:03:33
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
谷爱凌14岁就说自己是中国人:我不是老外 会不会说中文有打区别

谷爱凌14岁就说自己是中国人:我不是老外 会不会说中文有打区别

念洲
2026-02-24 16:34:24
美伊26日谈判在即 是否对伊朗动武:白宫先内讧了

美伊26日谈判在即 是否对伊朗动武:白宫先内讧了

环球网资讯
2026-02-24 07:25:18
他们干掉了最大的毒枭,没想到整个国家却烧起来了...

他们干掉了最大的毒枭,没想到整个国家却烧起来了...

英国那些事儿
2026-02-23 23:28:04
《卫报》:普京曾认为90%的乌克兰人会支持入侵

《卫报》:普京曾认为90%的乌克兰人会支持入侵

时尚的弄潮
2026-02-24 11:47:43
2026-02-24 23:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

健康
教育
亲子
房产
时尚

转头就晕的耳石症,能开车上班吗?

教育要闻

因为孩子们的一个疑问,这堂课上了8个月

亲子要闻

我嫁中国生了3个孩子,每天带娃堪比春晚!

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

无障碍浏览 进入关怀版