网易首页 > 网易号 > 正文 申请入驻

零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程

0
分享至

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。

想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个字,难。

这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 Blender、Maya 虽然功能强大,但学习曲线陡峭。近年来兴起的文本生成 3D 技术让用户可以通过文字描述生成 3D 内容,但这些方法要么依赖有限的 3D 训练数据,遇到新场景类型或风格就容易翻车,要么在预测完场景中的物体信息后,要从特定的 3D 模型池中寻找并调用出与预测特征最相近的,因此最后的场景质量非常依赖于模型池中到底有什么,很容易导致风格不统一。

与此同时,文本生成 2D 图像技术(如 GPT-4o、Flux)却突飞猛进。这些模型通过海量互联网图像训练,已经能生成布局合理、风格统一的复杂场景图。这引发了一个关键思考:能否让 2D 图像充当 "中间商",先把用户输入文字转化为高质量场景图,再从中提取 3D 信息?NVIDIA 与康奈尔大学联合团队的最新研究 ArtiScene,正是基于这一 insight 提出的全新解决方案。

  • 文章链接:https://arxiv.org/abs/2506.00742
  • 文章网站:https://artiscene-cvpr.github.io/(代码即将开源)
  • 英伟达网站:https://research.nvidia.com/labs/dir/artiscene/

图一:ArtiScene 生成的 3D 结果。从左到右的文字输入分别是,第一行:(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行:(1) a cute living room, (2) a garage, (3) a operating room.

核心贡献:无需训练的智能 3D 场景工厂

ArtiScene 的核心创新在于构建了一个完全无需额外训练的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步:

1. 2D 图像作为 "设计蓝图"

系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。

图二:和其他任意的相机视角(左二、三)比,让文生图模型输出等轴测图(左一)更可靠,因为等轴测图默认相机参数是固定的,且没有透视形变。

2. 物体检测与修复

采用两阶段检测策略:先用 GroundedDINO 识别场景中的家具和装饰品,对遮挡部分用补全修复(Remove Anything 模型),再次检测确保完整性,最后得到每个物品的分割掩码。

3. 3D 空间定位

通过 Depth-Anything-2 模型估计深度信息,配合自定义投影公式将 2D 坐标转换为 3D 位置。团队发现传统相机投影公式需要调整,于是采用去除深度缩放影响后的公式。

4. 模块化 3D 资产生成

传统方法通常从现有数据库检索 3D 模型,导致美观度受限。ArtiScene 则对场景图中的每个物体分别生成定制化 3D 模型:在得到分割物体图像后,让 ChatGPT 描述其几何特征,再输入单视图 3D 生成模型,为每件家具、装饰品单独建模。

5. 场景组装

通过单目深度估计,系统将 2D 边界框转换为 3D 空间坐标。并使用 "渲染 - 比对" 的姿势估测机制,生成 8 个旋转角度的物体渲染图,用 Stable Diffusion+DINO-v2 融合模型提取特征,选择与原始场景图最匹配的姿势。后处理阶段还会自动修正物体重叠,确保物理上足够合理,比如椅子不会嵌进餐桌里,花瓶能稳稳立在柜子上。

图三:系统流程图

这种设计带来三个显著优势:

零训练成本:完全利用现成模型,无需针对新场景类型微调

风格无限:每个物体都按需生成,不受预制模型库限制

可编辑性强:单独修改某个物体不会影响整体场景

实验结果:全面超越现有方案

团队在三个维度进行了系统评估:

1. 布局合理性测试

对比当时最强的 LayoutGPT,在卧室和客厅场景中:

  • 物体重叠率降低 6-10 倍(卧室 6.48% vs 37.26%)
  • 用户调研显示,72.58% 的参与者更青睐 ArtiScene 的布局
  • 生成家具数量更多(卧室平均 6.97 件 vs 4.30 件),且分布更自然

2. 风格一致性测试

相比当时效果最好的文生 3D 场景方法 Holodeck,在包含 29 种场景种类和风格的测试集中:

  • CLIP 分数提高 10%(29.45 vs 26.73)
  • GPT-4 评估中,95.46% 案例认为 ArtiScene 更符合描述
  • 用户调研显示,82.96% 认为风格还原更准确

图四:和之前的 SOTA Holodeck 的比较。

3. 应用灵活性展示

系统支持多种实用功能:

  • 物体编辑:单独修改某个模型(如把普通汽车变成黄色保时捷)
  • 多场景适配:通过调整参数支持户外场景生成
  • 人工引导:允许直接输入手绘设计图替代 AI 生成场景图

图五:左:物体编辑;右:跳过最开始的文生图环节,直接用人工画的图生成场景。

展望

对于更复杂的多房间场景(如整个博物馆、医院),或者要求特定家具间的位置关系和个数等用户输入,由于文生图模型在训练时就缺乏相关数据,ArtiScene 在最开始就会受限于不够优质的二维图像。然而,这一模块是可更换的,ArtiScene 不依赖于某一特定模型,未来如果有性能更好的同功能模型,我们也可以很容易把它们替换进来。

本项目创新地采用二维图像来引导三维场景生成,并用 LLM、VLM 等大模型构成了一个鲁棒的系统,在生成结果的美观度、多样性和物理合理性上都远超之前的同类型方法。作者希望他们的工作可以启发未来更多关于具身智能、AR/VR、室内 / 室外设计的思考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8条公交调线方案征求意见 拟合并101路、109路,撤销118路

8条公交调线方案征求意见 拟合并101路、109路,撤销118路

首都之窗
2026-03-26 18:01:08
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
恐怖得无法想象!在老山之战中,越南军队的军纪有多恐怖?

恐怖得无法想象!在老山之战中,越南军队的军纪有多恐怖?

浩舞默画
2026-03-26 09:16:35
她才是霍家的“定海神针”,比郭晶晶还忙,却比80岁霍震霆还低调

她才是霍家的“定海神针”,比郭晶晶还忙,却比80岁霍震霆还低调

以茶带书
2026-03-26 18:11:56
黑丝+高跟鞋+包臀裙,才是微胖身材的女生职场穿搭正确穿搭方式

黑丝+高跟鞋+包臀裙,才是微胖身材的女生职场穿搭正确穿搭方式

牛弹琴123456
2026-03-25 16:55:03
航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

环球网资讯
2026-03-26 18:26:42
内马尔落选大名单,罗马里奥:安帅最好小心点,巴西不能没他

内马尔落选大名单,罗马里奥:安帅最好小心点,巴西不能没他

懂球帝
2026-03-25 22:26:05
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
卖插座赚900亿!这个浙江人死磕25年,雷军来了都没干过他

卖插座赚900亿!这个浙江人死磕25年,雷军来了都没干过他

青眼财经
2026-03-24 22:50:13
全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

遁走的两轮
2026-03-26 14:59:28
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
江苏拿嵊泗列岛和浙江换南太湖这件事,真正吃亏的可能是上海

江苏拿嵊泗列岛和浙江换南太湖这件事,真正吃亏的可能是上海

今日搞笑分享
2026-03-26 14:04:48
张雪峰遗产纷争的内幕!

张雪峰遗产纷争的内幕!

八卦疯叔
2026-03-26 11:05:04
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
估值420亿!刘强东押注宇树科技!

估值420亿!刘强东押注宇树科技!

新零售参考Pro
2026-03-25 14:22:05
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
2026-03-26 22:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
教育
家居
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

你好,我是馒头,快开门!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版