网易首页 > 网易号 > 正文 申请入驻

MIT团队发布可控场景生成新方法,用AI为机器人构建无限逼真世界

0
分享至



像 ChatGPT 和 Claude 这样的聊天机器人在过去三年里使用量激增,因为它们能帮你完成各种各样的任务。无论是写莎士比亚十四行诗、调试代码,还是回答冷门知识问题,这些 AI 似乎都能搞定。它们这种多才多艺的能力背后,是来自互联网的数十亿甚至万亿级别的文本数据点。

然而,仅仅依靠这些数据,远不足以将一个机器人训练成能干的家庭或工厂助理。机器人需要通过实际的演示来理解如何在多变的环境中抓取、堆叠和摆放各种物体。你可以将机器人的训练数据想象成一系列操作指南视频,一步步地拆解任务中的每个动作。在真实机器人上采集这些演示数据不仅耗时,而且过程难以精确重复。为此,工程师们尝试过用 AI 生成模拟数据(但这些数据往往与真实世界的物理规律脱节),或是耗费巨大精力从零开始手动构建每一个数字环境。

现在,来自麻省理工学院计算机科学与人工智能实验室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 与丰田研究院 (Toyota Research Institute) 的研究人员或许已经找到了解决方案,能够为机器人打造它们所需要的既多样又逼真的虚拟训练场。他们提出了一种名为“可控场景生成” (steerable scene generation) 的方法,可以程序化地创建厨房、客厅、餐厅等数字场景,供工程师模拟大量的真实世界互动与情境。该工具在一个包含超过 4400 万个 3D 房间的数据集上进行训练,这些房间中充满了桌子、盘子等各类物体的模型。它能将现有的资产布置到全新的场景中,并对每个场景进行精细调整,使其成为一个物理上精确且栩栩如生的环境。

“可控场景生成”技术通过“引导”一个扩散模型 (diffusion model) 来创建这些 3D 世界。扩散模型是一种 AI 系统,它能从随机噪声中生成视觉图像,并朝着用户所期望的日常场景演化。研究人员利用这个生成系统对环境进行“内部绘制” (in-paint),即在场景中填充特定的元素。你可以想象一块空白画布,突然间变为一个堆满 3D 物体的厨房,然后这些物体被逐步重新排列,最终形成一个遵循真实世界物理规律的场景。比如,该系统能确保叉子不会穿过桌上的碗——这在 3D 图形中是一种被称为“穿模” (clipping) 的常见错误,即模型之间发生重叠或交叉。

至于“可控场景生成”究竟如何引导其创作过程趋向真实,则取决于所选择的策略。其核心策略是“蒙特卡洛树搜索” (Monte Carlo tree search, MCTS),这是一种让模型创建一系列备选场景,并以不同方式进行填充以达成特定目标的算法(例如,让场景的物理表现更真实,或在场景中包含尽可能多的可食用物品)。AI 程序 AlphaGo 正是利用该策略在围棋比赛中击败人类顶尖选手,系统在做出最优选择前会预先考量一系列可能的移动序列。

“我们首次将 MCTS 应用于场景生成领域,通过将场景生成任务构建为一个序列决策过程来实现,” MIT 电子工程与计算机科学系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究员及该项目论文的第一作者 Nicholas Pfaff 表示,“我们持续在部分已生成的场景基础上进行构建,以期随时间推移产出更好或更符合需求的场景。因此,MCTS 能够创造出比其训练所用的扩散模型更为复杂的场景。”

在一次极具说服力的实验中,MCTS 在一个简单的餐厅场景中成功添加了最多达 34 件物品,其中包括堆叠得很高的多层点心蒸笼,而其训练数据中的场景平均仅包含 17 件物品。

“可控场景生成”还允许通过强化学习 (reinforcement learning) 来生成多样化的训练情景。其本质是教会扩散模型通过试错来达成目标。在初始数据训练之后,系统会进入第二个训练阶段。在这一阶段,你会设定一个奖励机制(即一个期望的结果,并用分数来衡量与目标的接近程度)。模型会自动学习如何创造得分更高的场景,其产出的情景往往与训练数据大相径庭。

用户还可以通过输入具体的视觉描述来直接向系统发出指令(例如,“一个厨房,桌上有一个碗和四个苹果”)。 “可控场景生成”能够精确地将这些指令变为现实。例如,该工具在构建食品储藏架场景时,准确遵循用户指令的成功率高达 98%,而在生成凌乱的早餐桌场景时则达到了 86%。这两项指标均比 MiDiffusion 和 DiffuScene 等同类方法高出至少 10%。

该系统还能通过提示或简单的指令来补全特定场景(例如,“使用相同的物体,设计一个不同的场景布局”)。你可以让它将苹果摆放在厨房桌子的几个盘子上,或是将棋盘游戏和书籍放到架子上。这本质上是在保留场景其余部分的同时,“填补”空白区域。

研究人员认为,他们项目的优势在于能够创造出大量可供机器人专家实际使用的场景。Pfaff 指出:“我们的一个关键发现是,用于预训练的场景不必与我们最终想要的场景完全一致。利用我们的引导方法,我们可以超越原有的数据分布,从一个‘更好’的分布中进行采样。换言之,我们可以生成我们真正想用来训练机器人的那种多样化、真实且与任务对齐的场景。”

这些丰富的场景成为了理想的测试平台,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器可以精准地将刀叉放入餐具筒,或是在多种 3D 环境下将面包重新摆放到盘子里。每一次模拟都显得流畅而逼真,让我们得以一窥未来由“可控场景生成”技术训练出的高适应性机器人的模样。

尽管该系统为生成大量多样的机器人训练数据提供了一条前景光明的道路,但研究人员表示,目前的工作更多是作为一种概念验证。未来,他们希望利用生成式 AI 来创造全新的物体和场景,而不仅仅是使用固定的资产库。他们还计划引入可活动的关节式物体(如可以打开的柜子或装有食物的罐子),以增强场景的互动性。

为了使虚拟环境更加逼真,Pfaff 及其同事可能会借鉴他们之前的研究项目“Scalable Real2Sim”,整合一个从互联网图像中提取的物体和场景库。通过扩展 AI 构建的机器人测试平台的多样性和逼真度,团队希望建立一个用户社区,共同创造海量数据,最终形成一个庞大的数据集,用于教授灵巧机器人掌握不同的技能。

“在今天,为模拟创建逼真的场景是一项极具挑战性的工作;程序化生成虽然可以快速产出大量场景,但这些场景很可能无法代表机器人在真实世界中会遇到的环境。而手动创建定制场景既耗时又昂贵,” 亚马逊机器人公司 (Amazon Robotics) 的应用科学家 Jeremy Binagia 评论道(他并未参与该项研究)。“‘可控场景生成’提供了一种更好的途径:在一个大型的预先存在的场景集合上训练一个生成模型,并(通过强化学习等策略)使其适应特定的下游应用。与以往那些依赖现成视觉语言模型或仅限于在 2D 网格上排列物体的方法相比,这种新方法保证了物理上的可行性,并全面考虑了 3D 的平移和旋转,从而能够生成远为有趣的场景。”

丰田研究院的机器人专家 Rick Cory(拥有 2008 年的科学硕士学位和 2010 年的博士学位,他未参与此项研究),他表示:“‘可控场景生成’结合了训练后处理和推理时搜索,为大规模自动化场景生成提供了一个新颖而高效的框架。更重要的是,它能够生成那些被认为对下游任务至关重要的‘前所未见’的场景。未来,将这一框架与浩瀚的互联网数据相结合,有望在实现机器人在真实世界中高效部署的道路上,解锁一个重要的里程碑。”

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

红星新闻
2026-03-26 20:09:36
浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

朗威谈星座
2026-03-26 18:09:46
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

情感大头说说
2026-03-26 17:04:32
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

珺瑶婉史
2026-03-25 19:35:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
“油价飙升至200美元”?特朗普团队被爆评估极端情景,白宫紧急否认

“油价飙升至200美元”?特朗普团队被爆评估极端情景,白宫紧急否认

第一财经资讯
2026-03-26 18:58:56
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

我爱英超
2026-03-26 18:25:55
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

医学原创故事会
2026-03-07 21:55:05
2026-03-26 20:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
健康
教育
游戏
数码

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

无障碍浏览 进入关怀版