网易首页 > 网易号 > 正文 申请入驻

阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

0
分享至



尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。



SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升



  • 论文标题:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
  • 论文链接:https://arxiv.org/abs/2601.20354
  • 论文代码:https://github.com/AMAP-ML/SpatialGenEval

核心挑战:目前 T2I 模型空间认知 “浅表化” 与逻辑缺失

现有文生图模型虽然能够很好地完成 “生成什么”(What)的语义对齐,但在处理 “空间位置在哪里”(Where)、“空间如何排列”(How)以及物理世界中的 “空间交互逻辑”(Why)时,面临着从 “基础感知” 到 “高阶推理” 的全方位挑战,包括:

1. 空间基础的 “属性漂移” 与缺失:模型虽然能画出物体,但在信息密集提示词下,常出现物体漏画或属性绑定错误,无法维持 “万物各司其职” 的基础对齐能力。

2. 空间感知的 “几何偏见”:在处理物体精确位置、朝向及特定排列布局时,模型往往倾向于生成 “默认姿态”(如正面视图),难以跨越 2D 画布实现精准的空间定位。

3. 空间推理的 “逻辑盲区”:这是当前模型最大的短板。在涉及相对数值比较(如 “红椅比蓝椅大两倍”)、3D 遮挡关系及物理距离邻近性时,模型得分接近随机猜测,表明其缺乏对真实物理世界层级和深度的认知。

4. 空间交互的 “动态失真”:模型难以捕捉物体间的动态瞬间(如跳跃中的足球)或物理因果逻辑(如撞击导致的破碎),无法将潜藏的物理动力学转化为逻辑自洽的视觉图像。



上:当前生成模型在感知、推理和交互上的错误样例;下:当前评估基准存在信息稀疏 / 粗粒度 yes-or-no 评估

SpatialGenEval:涉及空间基础、感知、推理和交互的空间智能 “全科扫描”

为了系统化地定义和评估文生图模型 “空间智能” 能力,研究团队构建了一个层次化框架,将空间智能解构为 4 大领域及 10 个关键子维度:

1. 空间基础 (S1/S2):多目标物体类别(S1)、多目标属性绑定(S2)。

2. 空间感知 (S3/S4/S5):空间位置(S3)、空间朝向(S4)与空间布局(S5)。

3. 空间推理 (S6/S7/S8):空间大小 / 长度 / 高矮等比较(S6)、空间邻近性(S7)与空间位置遮挡(S8)。

4. 空间交互 (S9/S10):空间运动交互(S9)与空间因果交互(S10)。

该基准测试覆盖自然、室内、户外、人类活动及艺术设计等 25 个现实世界场景,为其精心构建了 1,230 条 长文本、信息密集型提示词。每个提示词均深度融合了上述从基础属性、布局到高阶遮挡、因果推理等 10 个空间子领域及对应全维度问答。值得注意的是,每个提示词长度约 60 词,允许同时兼顾依赖 CLIP 编码模型(77 tokens 限制)和保持高度信息密集。



SpatialGenEval 评估数据构建流程



SpatialGenEval 所有 10 个空间维度的提示词及其问题展示



核心发现:空间推理仍是主要瓶颈

研究团队对 23 款前沿的开源与闭源 T2I 模型进行了详尽评估,揭示了以下行业现状:

  • 空间推理是核心薄弱环节:在涉及比较和遮挡的空间推理子任务中,多数模型的得分仅在 30% 左右,接近随机猜测水平(20%),这表明目前的模型普遍缺乏对 3D 场景结构和逻辑关系的理解。
  • 开源模型正快速追赶:评测显示,最强的开源模型 Qwen-Image (60.6%) 表现已与顶级闭源模型 Seed Dream 4.0 (62.7%) 基本持平,但均仅达到及格线水平,空间智能仍有巨大提升空间。
  • 强大的文本编码器至关重要:使用高性能 LLM(如 T5 或大型语言模型)作为文本编码器的模型(如 FLUX.1),在解析复杂空间指令时显著优于仅依赖 CLIP 的模型。



基于 Qwen2.5-VL-72B-Instruct 的自动化评估结果



左:所有评估模型的错误类型分布;右:高优模型的错误类型分布

数据中心范式:提升模型空间智能的有效路径

除了评估,该研究还提出了一种基于已有生成图像的改进方案。团队通过多模态大模型(MLLM)重写提示词以确保图文一致性,构建了包含 15,400 对图文数据的 SpatialT2I 数据集。对主流三大类模型(Diffusion-based, AR-based,Unified-based 模型)进行监督微调结果在空间评估指标有显著增益,生成的图像在物理逻辑和空间布局上更具真实感。



微调模型后的生成结果对比

总结与展望

SpatialGenEval 为 T2I 模型从 “美学生成” 迈向 “逻辑感知” 建立了一条新的评估路线,只有让模型真正理解 “万物各得其所 (Everything in its place)”,生成式 AI 才能在机器人辅助、室内设计、自动驾驶仿真等对空间维度有严苛要求的领域中释放真正的生产力。

作者团队介绍

阿里高德的机器学习研发部,承接公司重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的 AI 智能化等,部门研究领域广泛,包括但不限于以下方向:(1) 多模态大模型;(2) 图像生成 / 编辑美化;(3) 视频生成 / 理解;(4) Agent; (5) 时空数据挖掘;(6) 智能推荐;(7) 高性能推理等。团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,多篇论文入选 paper digest 最有影响力论文名单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
官方:CCTV5、央视频等平台将转播国足vs库拉索

官方:CCTV5、央视频等平台将转播国足vs库拉索

懂球帝
2026-03-26 17:12:06
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

全景体育V
2026-03-26 08:16:09
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

澎湃新闻
2026-03-26 17:02:26
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
2026-03-26 19:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
家居
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版