网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 I 英伟达 & 普渡大学用agent闭环实现文生3D

0
分享至



大模型正在进入 “Agent 时代”

大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说,这种变化尤其关键。因为真正限制机器人和智能体能力上限的,很多时候并不是算法本身,而是现实世界中过高的试错成本:一次抓取失败、一次路径规划失误,代价都远高于在虚拟环境中的反复迭代。也正因如此,一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界,正变得越来越重要。

从一句文本描述直接生成一个真正 “能用” 的三维场景,远比生成几张好看的图片更难。一个场景是否可用,不仅取决于里面有没有桌子、椅子和书架,而且取决于这些物体之间的关系是否合理:杯子能不能真正放在桌面上,书能不能被摆进书架里,椅子是不是面向一个符合使用常识的位置,整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说,3D 场景生成最难的地方,从来不是 “生成资产”,而是让空间关系看起来像真实世界,并且真的能够服务于交互、仿真和具身智能任务。

围绕这一问题,来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis(ICLR 2026)。与其过拟合小样本的 3D 场景数据,他们换了一个思路:把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统,让文本生成 3D 场景这件事,不再只是一次性的 “生成”,而更像一个不断规划、检查、修正的过程。



  • 论文标题:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
  • 文章链接:https://arxiv.org/pdf/2505.02836
  • 英伟达网站:https://research.nvidia.com/labs/dir/scenethesis/

可交互三维场景生成的两个长期困境

过去几年里,可交互 3D 场景生成大致沿着两条路线发展。

第一类方法依赖 3D-FRONT 等室内数据集训练模型,在室内布局上已经取得了不少进展,但它们的能力往往也被训练分布牢牢锁住了:会摆客厅和卧室,不代表能自然泛化到其他室内布局,甚至街道、海滩或公园等室外场景;能处理常见家具关系,也不意味着能稳定建模 “小物体放置于大物体中” 这类更细粒度、更长尾的空间关系。

另一类方法则开始借助大语言模型做开放式布局规划。语言模型的优势是组合能力强、语义覆盖广,能够根据文本描述快速搭出场景框架,但它毕竟运行在符号空间里,不在几何空间里。于是我们经常看到这样的结果:物体类别是对的,关系描述也大体没错,可一旦落到真实三维空间,就会出现椅子朝墙、柜子挡窗、物体浮空甚至彼此穿插等不符合常识的现象。

核心问题:如何有效生成 “空间物理真实的 3D 场景”?

Scenethesis 的出发点,正是在这两类路线之间找到一个新的结合方式。研究者注意到,语言模型擅长的是语义规划,却缺少对真实空间的直觉;而视觉模型虽然不会直接 “理解” 场景逻辑,却天然携带大量现实世界的空间统计先验。

因此,这项工作的核心并不是把几个模块简单拼起来,而是让它们在一个闭环里各司其职:先由语言模型做粗粒度规划,再借助视觉模块把抽象的语义关系落到更真实的空间布局中,随后引入物理优化去消除穿模和不稳定支撑,最后再由判断模块检查整个场景是否满足常识与一致性要求,不满足就继续修复。



系统流程图

Scenethesis:四阶段 Agent 系统

Scenethesis 是一个无需重新训练场景生成模型的系统框架,其流程包含四个阶段。

第一阶段:语义模型进行粗粒度规划

在具体流程上,Scenethesis 会先根据文本提示识别场景类型、挑选关键锚点物体,并构建一个初步的层级布局。这个阶段更像 “构思”,会理解用户输入的场景类型,然后推理场景里应该有什么、哪些物体之间会有空间关系,确保资产库中有规划好的物体,最后以 JSON 格式输出选中的物体以及扩充过的场景描述。



第二阶段:视觉模块进行空间落地

真正让这项工作区别于很多语言规划方法的是视觉模块的介入和物理优化的过程:系统先生成参考图像,再通过实例分割和深度估计恢复场景结构,估计物体的初始 3D 大小,从而把原本停留在语言层面的描述,转化为更加贴近真实世界的空间线索。到了这一步,系统已经不再是凭语言 “脑补” 布局,而是在借助视觉先验让场景变得更像现实空间。



第三阶段:物理参与生成过程

为了让场景生成不仅仅是 “视觉上看起来不错”,还需要确保生成的场景符合物理规律。传统布局方法常常只在 3D 包围盒层面做碰撞检查,这对于复杂物体关系来说过于粗糙,既难以表达精细接触,也很难处理 “放进书架里” 这类更复杂的支撑关系。Scenethesis 采用有符号距离场 (SDF),用更细粒度的几何对齐与物理约束,让优化过程直接考虑接触、支撑和稳定性。这样一来,小物体不只是 “看起来” 靠近某个大物体,而是真正被放进了合理的位置;整个场景也因此显著减少了漂浮、穿插和不稳定现象。



第四阶段:自检与修复机制

系统最后还加入了 judge 模块,对物体类别、空间关系和整体结构进行一致性判断。如果场景没有通过检查,系统就会重新规划和修复。这种 “生成 — 检查 — 修复 — 再生成” 的闭环,让 3D 场景生成第一次更接近 Agent 式工作流。它不是一次性吐出结果,而是在多模态反馈中不断把结果推向更合理的状态。实验显示:第一轮生成通过率约 72%,引入自检机制后提升至 91%。



实验结果:空间关系不仅更真实,而且 “物理” 合理

从结果上看,这种路线带来的提升并不只是视觉上的 “更像”,而是空间关系和物理合理性的同步改善。论文显示,加入这套闭环后,场景生成在碰撞率从 6.1% 降至 0.8%,同时还能更稳定地处理上方、内部、下方等更丰富的空间关系。更重要的是,这种方法并没有被室内数据分布锁死,在海滩、街道、公园等户外环境中,同样能够生成开放性的结构更自然、物理更可信的可交互场景。对于虚拟内容创作、仿真环境搭建以及具身智能训练来说,这一点尤其关键:研究者真正需要的,从来不是一套只能摆拍的三维世界,而是一个能够被操作、被编辑、被反复试验的空间环境。



Scenethesis 与其他方法生成的场景对比



只需要给一段文字描述,Scenethesis 就能生成对应的可交互三维场景

未来方向

当然,Scenethesis 也并不是终点。它仍然受到资产库多样性、遮挡场景下对应精度以及可动结构资产支持能力的影响。但这项工作的价值在于,它提供了一种很有代表性的方向:当文本到 3D 不再只是 “生成一个结果”,而是变成一个由语言、视觉和物理共同驱动的闭环过程,我们也许才真正开始逼近 “可交互世界生成” 这件事的核心。对于正在走向空间智能和具身智能的大模型来说,这或许比再做一个更会摆家具的生成器,更接近下一阶段真正重要的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

影孖看世界
2026-05-07 15:58:50
美国郁闷到了极点,为什么别人都不还手,中国老是还手呢?

美国郁闷到了极点,为什么别人都不还手,中国老是还手呢?

混沌录
2026-05-06 18:04:25
4只1035元天价皮皮虾事件反转?官方回复:未超调控价,游客:没收到退款

4只1035元天价皮皮虾事件反转?官方回复:未超调控价,游客:没收到退款

上观新闻
2026-05-07 20:24:15
英国威尔士首席大臣宣布辞任威尔士工党领袖

英国威尔士首席大臣宣布辞任威尔士工党领袖

财联社
2026-05-09 01:08:17
打回身价!里夫斯31+6创新高解锁500分里程碑 险被SGA夹伤胳膊

打回身价!里夫斯31+6创新高解锁500分里程碑 险被SGA夹伤胳膊

醉卧浮生
2026-05-08 12:23:05
4只皮皮虾1035元后续!老板病逝顾客放弃赔单,进价曝光评论逆变

4只皮皮虾1035元后续!老板病逝顾客放弃赔单,进价曝光评论逆变

社会日日鲜
2026-05-08 16:35:26
新CEO上任直接放大招!AirPods Pro首次塞进摄像头:苹果又要改变世界

新CEO上任直接放大招!AirPods Pro首次塞进摄像头:苹果又要改变世界

快科技
2026-05-08 12:13:15
44伊万卡美得还是很突出,在家族女眷合影中一眼惊艳,比女儿还美

44伊万卡美得还是很突出,在家族女眷合影中一眼惊艳,比女儿还美

毒舌小红帽
2026-04-20 18:57:14
我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

千秋文化
2026-04-22 20:21:49
中国两人征战新季WNBA:李月汝韩旭进大名单 冉珂嘉被选中未赴美

中国两人征战新季WNBA:李月汝韩旭进大名单 冉珂嘉被选中未赴美

醉卧浮生
2026-05-08 18:54:49
《妻旅2026》孙杨为啥总被秦昊拿捏?滴血大教堂这段对话,全是人情世故

《妻旅2026》孙杨为啥总被秦昊拿捏?滴血大教堂这段对话,全是人情世故

小椰的奶奶
2026-05-08 05:52:19
这居然是母子合影,47 岁巴西女星简直冻龄

这居然是母子合影,47 岁巴西女星简直冻龄

下水道男孩
2026-05-07 21:16:59
红场阅兵前夕泽连斯基突然松口:俄罗斯停火,乌克兰也停

红场阅兵前夕泽连斯基突然松口:俄罗斯停火,乌克兰也停

桂系007
2026-05-08 23:56:13
同样是债务危机,八年输光2000亿,王健林凭什么比许家印体面?

同样是债务危机,八年输光2000亿,王健林凭什么比许家印体面?

户外钓鱼哥阿旱
2026-05-09 01:16:17
纳斯达克指数升破26000点 刷新纪录新高

纳斯达克指数升破26000点 刷新纪录新高

财联社
2026-05-07 22:42:12
再见,鞋王!41岁PJ·塔克宣布退役!!!

再见,鞋王!41岁PJ·塔克宣布退役!!!

柚子说球
2026-05-08 10:30:36
PJ·塔克个人社媒宣布退役 结束14年NBA生涯

PJ·塔克个人社媒宣布退役 结束14年NBA生涯

北青网-北京青年报
2026-05-08 20:22:12
一场4-0!让英超保级又生变数:热刺有2对手要争六,全输或降级

一场4-0!让英超保级又生变数:热刺有2对手要争六,全输或降级

体育知多少
2026-05-08 09:00:37
花20亿养上百位情人,睡十人大床,风流一生临终却落个凄惨结局?

花20亿养上百位情人,睡十人大床,风流一生临终却落个凄惨结局?

历史人文2
2026-04-09 19:16:31
宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

宋轶整容失败认不出!脸变宽嘴变大颧骨变高,猛一看还以为是易梦玲

白宸侃片
2026-05-03 16:59:47
2026-05-09 02:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12950文章数 142646关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

手机
游戏
教育
房产
军事航空

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

PS未发售重磅独占要完!同类项目崩盘 新作悬了

教育要闻

摒弃打压式教育,皮格马利翁效应

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版