网易首页 > 网易号 > 正文 申请入驻

MIT团队发布可控场景生成新方法,用AI为机器人构建无限逼真世界

0
分享至



像 ChatGPT 和 Claude 这样的聊天机器人在过去三年里使用量激增,因为它们能帮你完成各种各样的任务。无论是写莎士比亚十四行诗、调试代码,还是回答冷门知识问题,这些 AI 似乎都能搞定。它们这种多才多艺的能力背后,是来自互联网的数十亿甚至万亿级别的文本数据点。

然而,仅仅依靠这些数据,远不足以将一个机器人训练成能干的家庭或工厂助理。机器人需要通过实际的演示来理解如何在多变的环境中抓取、堆叠和摆放各种物体。你可以将机器人的训练数据想象成一系列操作指南视频,一步步地拆解任务中的每个动作。在真实机器人上采集这些演示数据不仅耗时,而且过程难以精确重复。为此,工程师们尝试过用 AI 生成模拟数据(但这些数据往往与真实世界的物理规律脱节),或是耗费巨大精力从零开始手动构建每一个数字环境。

现在,来自麻省理工学院计算机科学与人工智能实验室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 与丰田研究院 (Toyota Research Institute) 的研究人员或许已经找到了解决方案,能够为机器人打造它们所需要的既多样又逼真的虚拟训练场。他们提出了一种名为“可控场景生成” (steerable scene generation) 的方法,可以程序化地创建厨房、客厅、餐厅等数字场景,供工程师模拟大量的真实世界互动与情境。该工具在一个包含超过 4400 万个 3D 房间的数据集上进行训练,这些房间中充满了桌子、盘子等各类物体的模型。它能将现有的资产布置到全新的场景中,并对每个场景进行精细调整,使其成为一个物理上精确且栩栩如生的环境。

“可控场景生成”技术通过“引导”一个扩散模型 (diffusion model) 来创建这些 3D 世界。扩散模型是一种 AI 系统,它能从随机噪声中生成视觉图像,并朝着用户所期望的日常场景演化。研究人员利用这个生成系统对环境进行“内部绘制” (in-paint),即在场景中填充特定的元素。你可以想象一块空白画布,突然间变为一个堆满 3D 物体的厨房,然后这些物体被逐步重新排列,最终形成一个遵循真实世界物理规律的场景。比如,该系统能确保叉子不会穿过桌上的碗——这在 3D 图形中是一种被称为“穿模” (clipping) 的常见错误,即模型之间发生重叠或交叉。

至于“可控场景生成”究竟如何引导其创作过程趋向真实,则取决于所选择的策略。其核心策略是“蒙特卡洛树搜索” (Monte Carlo tree search, MCTS),这是一种让模型创建一系列备选场景,并以不同方式进行填充以达成特定目标的算法(例如,让场景的物理表现更真实,或在场景中包含尽可能多的可食用物品)。AI 程序 AlphaGo 正是利用该策略在围棋比赛中击败人类顶尖选手,系统在做出最优选择前会预先考量一系列可能的移动序列。

“我们首次将 MCTS 应用于场景生成领域,通过将场景生成任务构建为一个序列决策过程来实现,” MIT 电子工程与计算机科学系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究员及该项目论文的第一作者 Nicholas Pfaff 表示,“我们持续在部分已生成的场景基础上进行构建,以期随时间推移产出更好或更符合需求的场景。因此,MCTS 能够创造出比其训练所用的扩散模型更为复杂的场景。”

在一次极具说服力的实验中,MCTS 在一个简单的餐厅场景中成功添加了最多达 34 件物品,其中包括堆叠得很高的多层点心蒸笼,而其训练数据中的场景平均仅包含 17 件物品。

“可控场景生成”还允许通过强化学习 (reinforcement learning) 来生成多样化的训练情景。其本质是教会扩散模型通过试错来达成目标。在初始数据训练之后,系统会进入第二个训练阶段。在这一阶段,你会设定一个奖励机制(即一个期望的结果,并用分数来衡量与目标的接近程度)。模型会自动学习如何创造得分更高的场景,其产出的情景往往与训练数据大相径庭。

用户还可以通过输入具体的视觉描述来直接向系统发出指令(例如,“一个厨房,桌上有一个碗和四个苹果”)。 “可控场景生成”能够精确地将这些指令变为现实。例如,该工具在构建食品储藏架场景时,准确遵循用户指令的成功率高达 98%,而在生成凌乱的早餐桌场景时则达到了 86%。这两项指标均比 MiDiffusion 和 DiffuScene 等同类方法高出至少 10%。

该系统还能通过提示或简单的指令来补全特定场景(例如,“使用相同的物体,设计一个不同的场景布局”)。你可以让它将苹果摆放在厨房桌子的几个盘子上,或是将棋盘游戏和书籍放到架子上。这本质上是在保留场景其余部分的同时,“填补”空白区域。

研究人员认为,他们项目的优势在于能够创造出大量可供机器人专家实际使用的场景。Pfaff 指出:“我们的一个关键发现是,用于预训练的场景不必与我们最终想要的场景完全一致。利用我们的引导方法,我们可以超越原有的数据分布,从一个‘更好’的分布中进行采样。换言之,我们可以生成我们真正想用来训练机器人的那种多样化、真实且与任务对齐的场景。”

这些丰富的场景成为了理想的测试平台,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器可以精准地将刀叉放入餐具筒,或是在多种 3D 环境下将面包重新摆放到盘子里。每一次模拟都显得流畅而逼真,让我们得以一窥未来由“可控场景生成”技术训练出的高适应性机器人的模样。

尽管该系统为生成大量多样的机器人训练数据提供了一条前景光明的道路,但研究人员表示,目前的工作更多是作为一种概念验证。未来,他们希望利用生成式 AI 来创造全新的物体和场景,而不仅仅是使用固定的资产库。他们还计划引入可活动的关节式物体(如可以打开的柜子或装有食物的罐子),以增强场景的互动性。

为了使虚拟环境更加逼真,Pfaff 及其同事可能会借鉴他们之前的研究项目“Scalable Real2Sim”,整合一个从互联网图像中提取的物体和场景库。通过扩展 AI 构建的机器人测试平台的多样性和逼真度,团队希望建立一个用户社区,共同创造海量数据,最终形成一个庞大的数据集,用于教授灵巧机器人掌握不同的技能。

“在今天,为模拟创建逼真的场景是一项极具挑战性的工作;程序化生成虽然可以快速产出大量场景,但这些场景很可能无法代表机器人在真实世界中会遇到的环境。而手动创建定制场景既耗时又昂贵,” 亚马逊机器人公司 (Amazon Robotics) 的应用科学家 Jeremy Binagia 评论道(他并未参与该项研究)。“‘可控场景生成’提供了一种更好的途径:在一个大型的预先存在的场景集合上训练一个生成模型,并(通过强化学习等策略)使其适应特定的下游应用。与以往那些依赖现成视觉语言模型或仅限于在 2D 网格上排列物体的方法相比,这种新方法保证了物理上的可行性,并全面考虑了 3D 的平移和旋转,从而能够生成远为有趣的场景。”

丰田研究院的机器人专家 Rick Cory(拥有 2008 年的科学硕士学位和 2010 年的博士学位,他未参与此项研究),他表示:“‘可控场景生成’结合了训练后处理和推理时搜索,为大规模自动化场景生成提供了一个新颖而高效的框架。更重要的是,它能够生成那些被认为对下游任务至关重要的‘前所未见’的场景。未来,将这一框架与浩瀚的互联网数据相结合,有望在实现机器人在真实世界中高效部署的道路上,解锁一个重要的里程碑。”

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
单局18-16!张本美和3-0开门红,伊藤3-2,孙颖莎比赛时间曝光

单局18-16!张本美和3-0开门红,伊藤3-2,孙颖莎比赛时间曝光

体育就你秀
2026-03-30 11:32:24
善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

老赳说历史
2026-03-29 20:02:37
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
乒乓球世界杯:周启豪逆转失败!挽救局点仍输9-11,1-1被追平!

乒乓球世界杯:周启豪逆转失败!挽救局点仍输9-11,1-1被追平!

刘姚尧的文字城堡
2026-03-30 11:06:37
伊朗军队:袭击阿联酋境内美军雷达站

伊朗军队:袭击阿联酋境内美军雷达站

看看新闻Knews
2026-03-30 17:47:03
俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

让生活充满温暖
2026-03-22 16:46:14
“情况比预想的还要糟糕”,李在明:我都无法入睡

“情况比预想的还要糟糕”,李在明:我都无法入睡

观察者网
2026-03-30 19:01:14
买莴笋时,看到这种碰都不碰,菜贩自己从不吃,别说没有提醒你

买莴笋时,看到这种碰都不碰,菜贩自己从不吃,别说没有提醒你

马蹄烫嘴说美食
2026-03-19 14:35:45
阿联酋明牌支持美军,彻底打服伊朗!为什么阿拉伯人不愿中立了?

阿联酋明牌支持美军,彻底打服伊朗!为什么阿拉伯人不愿中立了?

漫步独行侠
2026-03-29 18:13:56
单依纯不简单啊

单依纯不简单啊

牛锅巴小钒
2026-03-30 10:43:11
赵少康评判郑丽文访问大陆,既有期待也有施压,讲了一堆废话

赵少康评判郑丽文访问大陆,既有期待也有施压,讲了一堆废话

呼呼历史论
2026-03-30 15:46:44
全球行驶里程最长特斯拉刷新纪录 100万公里后的样子

全球行驶里程最长特斯拉刷新纪录 100万公里后的样子

3DM游戏
2026-03-28 11:36:04
美媒文章:中国正日益成为“工厂的工厂”

美媒文章:中国正日益成为“工厂的工厂”

参考消息
2026-03-30 18:37:03
691辆!中国车在澳洲掀翻日本28年统治,比亚迪却不是最大的赢家

691辆!中国车在澳洲掀翻日本28年统治,比亚迪却不是最大的赢家

李子橱
2026-03-29 12:00:17
“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

“我有自己的指标!”上海知名演员催母亲体检被怼:撒向大海,我最喜欢

上观新闻
2026-03-29 18:06:13
净利润暴跌90%!理想的销量神话破灭

净利润暴跌90%!理想的销量神话破灭

大佬灼见
2026-03-13 12:23:26
中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

中央定调 2026 养老金方向!每月 3500 元养老金,今年能涨 80 元吗?

混沌录
2026-03-30 20:17:34
福特号士兵叛乱?火灾并非意外,真相曝光,44名士兵遇难只是开始

福特号士兵叛乱?火灾并非意外,真相曝光,44名士兵遇难只是开始

策略述
2026-03-28 12:47:15
蔡正元入狱第三天,大陆发布邀请公告,信号明确,郑丽文或成功臣

蔡正元入狱第三天,大陆发布邀请公告,信号明确,郑丽文或成功臣

李健政观察
2026-03-30 16:08:37
2026-03-30 21:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16508文章数 514816关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

家居
游戏
教育
手机
公开课

家居要闻

东方法式美学 现代简约

四月PS新会免游戏爆料!类魂与二次元双大作领衔

教育要闻

妈妈不要怕,有我在,你的儿子女儿会平安快乐长大!

手机要闻

vivo推出Y500s手机:骁龙4 Gen 2,1799元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版