网易首页 > 网易号 > 正文 申请入驻

ICLR 2026:阿里高德怎样颠覆文生图领域?

0
分享至

尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。


SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升


  • 论文标题:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

  • 论文链接:https://arxiv.org/abs/2601.20354

  • 论文代码:https://github.com/AMAP-ML/SpatialGenEval

核心挑战:目前 T2I 模型空间认知 “浅表化” 与逻辑缺失

现有文生图模型虽然能够很好地完成 “生成什么”(What)的语义对齐,但在处理 “空间位置在哪里”(Where)、“空间如何排列”(How)以及物理世界中的 “空间交互逻辑”(Why)时,面临着从 “基础感知” 到 “高阶推理” 的全方位挑战,包括:

1. 空间基础的 “属性漂移” 与缺失:模型虽然能画出物体,但在信息密集提示词下,常出现物体漏画或属性绑定错误,无法维持 “万物各司其职” 的基础对齐能力。

2. 空间感知的 “几何偏见”:在处理物体精确位置、朝向及特定排列布局时,模型往往倾向于生成 “默认姿态”(如正面视图),难以跨越 2D 画布实现精准的空间定位。

3. 空间推理的 “逻辑盲区”:这是当前模型最大的短板。在涉及相对数值比较(如 “红椅比蓝椅大两倍”)、3D 遮挡关系及物理距离邻近性时,模型得分接近随机猜测,表明其缺乏对真实物理世界层级和深度的认知。

4. 空间交互的 “动态失真”:模型难以捕捉物体间的动态瞬间(如跳跃中的足球)或物理因果逻辑(如撞击导致的破碎),无法将潜藏的物理动力学转化为逻辑自洽的视觉图像。


上:当前生成模型在感知、推理和交互上的错误样例;下:当前评估基准存在信息稀疏 / 粗粒度 yes-or-no 评估

SpatialGenEval:涉及空间基础、感知、推理和交互的空间智能 “全科扫描”

为了系统化地定义和评估文生图模型 “空间智能” 能力,研究团队构建了一个层次化框架,将空间智能解构为 4 大领域及 10 个关键子维度:

1. 空间基础 (S1/S2):多目标物体类别(S1)、多目标属性绑定(S2)。

2. 空间感知 (S3/S4/S5):空间位置(S3)、空间朝向(S4)与空间布局(S5)。

3. 空间推理 (S6/S7/S8):空间大小 / 长度 / 高矮等比较(S6)、空间邻近性(S7)与空间位置遮挡(S8)。

4. 空间交互 (S9/S10):空间运动交互(S9)与空间因果交互(S10)。

该基准测试覆盖自然、室内、户外、人类活动及艺术设计等 25 个现实世界场景,为其精心构建了 1,230 条 长文本、信息密集型提示词。每个提示词均深度融合了上述从基础属性、布局到高阶遮挡、因果推理等 10 个空间子领域及对应全维度问答。值得注意的是,每个提示词长度约 60 词,允许同时兼顾依赖 CLIP 编码模型(77 tokens 限制)和保持高度信息密集。


SpatialGenEval 评估数据构建流程


SpatialGenEval 所有 10 个空间维度的提示词及其问题展示


核心发现:空间推理仍是主要瓶颈

研究团队对 23 款前沿的开源与闭源 T2I 模型进行了详尽评估,揭示了以下行业现状:

  • 空间推理是核心薄弱环节:在涉及比较和遮挡的空间推理子任务中,多数模型的得分仅在 30% 左右,接近随机猜测水平(20%),这表明目前的模型普遍缺乏对 3D 场景结构和逻辑关系的理解。

  • 开源模型正快速追赶:评测显示,最强的开源模型 Qwen-Image (60.6%) 表现已与顶级闭源模型 Seed Dream 4.0 (62.7%) 基本持平,但均仅达到及格线水平,空间智能仍有巨大提升空间。

  • 强大的文本编码器至关重要:使用高性能 LLM(如 T5 或大型语言模型)作为文本编码器的模型(如 FLUX.1),在解析复杂空间指令时显著优于仅依赖 CLIP 的模型。


基于 Qwen2.5-VL-72B-Instruct 的自动化评估结果


左:所有评估模型的错误类型分布;右:高优模型的错误类型分布

数据中心范式:提升模型空间智能的有效路径

除了评估,该研究还提出了一种基于已有生成图像的改进方案。团队通过多模态大模型(MLLM)重写提示词以确保图文一致性,构建了包含 15,400 对图文数据的 SpatialT2I 数据集。对主流三大类模型(Diffusion-based, AR-based,Unified-based 模型)进行监督微调结果在空间评估指标有显著增益,生成的图像在物理逻辑和空间布局上更具真实感。


微调模型后的生成结果对比

总结与展望

SpatialGenEval 为 T2I 模型从 “美学生成” 迈向 “逻辑感知” 建立了一条新的评估路线,只有让模型真正理解 “万物各得其所 (Everything in its place)”,生成式 AI 才能在机器人辅助、室内设计、自动驾驶仿真等对空间维度有严苛要求的领域中释放真正的生产力。

作者团队介绍

阿里高德的机器学习研发部,承接公司重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的 AI 智能化等,部门研究领域广泛,包括但不限于以下方向:(1) 多模态大模型;(2) 图像生成 / 编辑美化;(3) 视频生成 / 理解;(4) Agent; (5) 时空数据挖掘;(6) 智能推荐;(7) 高性能推理等。团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,多篇论文入选 paper digest 最有影响力论文名单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不想退役!徐梦桃:希望能参加第6次冬奥 决赛前一天还在针灸

不想退役!徐梦桃:希望能参加第6次冬奥 决赛前一天还在针灸

醉卧浮生
2026-02-19 09:39:24
印度邀请美俄等70国不请中国,莫迪想法中国清楚

印度邀请美俄等70国不请中国,莫迪想法中国清楚

像梦一场a
2026-02-19 09:44:48
造不出就直接买下来!中国企业斥资260亿吞掉美国巨头,太解气了

造不出就直接买下来!中国企业斥资260亿吞掉美国巨头,太解气了

云舟史策
2026-02-19 07:13:47
2月17日,美伊以关于弹道导弹和核武器的会议,结束,彻底谈崩

2月17日,美伊以关于弹道导弹和核武器的会议,结束,彻底谈崩

高博新视野
2026-02-19 14:38:11
美国GPS全球用户数超60亿,再看中国北斗系统,差距实在是太大了

美国GPS全球用户数超60亿,再看中国北斗系统,差距实在是太大了

Thurman在昆明
2026-02-17 07:49:27
中国西南运河建设已达89%,2026年实现通江达海!

中国西南运河建设已达89%,2026年实现通江达海!

特约前排观众
2026-02-19 01:05:03
98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

千秋历史
2026-02-11 22:06:51
谷爱凌出战U池 宁忠岩冲击速滑男子1500米奖牌 米兰冬奥会今日赛事前瞻

谷爱凌出战U池 宁忠岩冲击速滑男子1500米奖牌 米兰冬奥会今日赛事前瞻

北青网-北京青年报
2026-02-19 12:50:05
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
湖北宜城烟花爆燃12名遇难者身份确认:除店老板外,11人都是顾客

湖北宜城烟花爆燃12名遇难者身份确认:除店老板外,11人都是顾客

Mr王的饭后茶
2026-02-19 12:00:03
15000mAh,绝了

15000mAh,绝了

放毒
2026-02-19 14:46:04
大年初三,大量外出务工的已开始返程!网友:不要再沉溺吃喝玩乐

大年初三,大量外出务工的已开始返程!网友:不要再沉溺吃喝玩乐

火山詩话
2026-02-19 09:45:49
中国女篮新16人集训名单出炉:李月汝韩旭将回归 王佳琦伤愈复出

中国女篮新16人集训名单出炉:李月汝韩旭将回归 王佳琦伤愈复出

醉卧浮生
2026-02-19 12:53:03
黄金、白银直线拉升!伊朗,大消息!

黄金、白银直线拉升!伊朗,大消息!

证券时报e公司
2026-02-19 16:37:17
12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

12名遇难者身份曝光:11人是前来购买烟花爆竹的顾客,5人未成年

汉史趣闻
2026-02-19 16:45:20
拥有400亿资产的刘汉死刑后,前妻杨雪命运如何?

拥有400亿资产的刘汉死刑后,前妻杨雪命运如何?

王鶔吃吃喝喝
2026-01-11 22:22:47
2026年,如果房价继续下跌,中国50%的家庭或将面临3个大麻烦

2026年,如果房价继续下跌,中国50%的家庭或将面临3个大麻烦

北纬的咖啡豆
2026-02-19 09:30:06
绝了,字母哥绝了!NBA又当又立第一人

绝了,字母哥绝了!NBA又当又立第一人

篮球实战宝典
2026-02-19 15:20:40
石达开为什么一定要处死秦日纲、陈承瑢?

石达开为什么一定要处死秦日纲、陈承瑢?

掠影后有感
2026-02-19 13:07:04
2026-02-19 18:47:00
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
275文章数 20663关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

媒体:高市2.0 日本政局发生了意料之中的变动

头条要闻

媒体:高市2.0 日本政局发生了意料之中的变动

体育要闻

中国队第二金!徐梦桃赢女子空中技巧两连冠 邵琪铜牌

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
健康
手机
公开课
军事航空

家居要闻

本真栖居 爱暖伴流年

转头就晕的耳石症,能开车上班吗?

手机要闻

全球限14台:Caviar推“爱之翼”限量iPhone 17 Pro/Max

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版