网易首页 > 网易号 > 正文 申请入驻

MIT团队发布可控场景生成新方法,用AI为机器人构建无限逼真世界

0
分享至



像 ChatGPT 和 Claude 这样的聊天机器人在过去三年里使用量激增,因为它们能帮你完成各种各样的任务。无论是写莎士比亚十四行诗、调试代码,还是回答冷门知识问题,这些 AI 似乎都能搞定。它们这种多才多艺的能力背后,是来自互联网的数十亿甚至万亿级别的文本数据点。

然而,仅仅依靠这些数据,远不足以将一个机器人训练成能干的家庭或工厂助理。机器人需要通过实际的演示来理解如何在多变的环境中抓取、堆叠和摆放各种物体。你可以将机器人的训练数据想象成一系列操作指南视频,一步步地拆解任务中的每个动作。在真实机器人上采集这些演示数据不仅耗时,而且过程难以精确重复。为此,工程师们尝试过用 AI 生成模拟数据(但这些数据往往与真实世界的物理规律脱节),或是耗费巨大精力从零开始手动构建每一个数字环境。

现在,来自麻省理工学院计算机科学与人工智能实验室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 与丰田研究院 (Toyota Research Institute) 的研究人员或许已经找到了解决方案,能够为机器人打造它们所需要的既多样又逼真的虚拟训练场。他们提出了一种名为“可控场景生成” (steerable scene generation) 的方法,可以程序化地创建厨房、客厅、餐厅等数字场景,供工程师模拟大量的真实世界互动与情境。该工具在一个包含超过 4400 万个 3D 房间的数据集上进行训练,这些房间中充满了桌子、盘子等各类物体的模型。它能将现有的资产布置到全新的场景中,并对每个场景进行精细调整,使其成为一个物理上精确且栩栩如生的环境。

“可控场景生成”技术通过“引导”一个扩散模型 (diffusion model) 来创建这些 3D 世界。扩散模型是一种 AI 系统,它能从随机噪声中生成视觉图像,并朝着用户所期望的日常场景演化。研究人员利用这个生成系统对环境进行“内部绘制” (in-paint),即在场景中填充特定的元素。你可以想象一块空白画布,突然间变为一个堆满 3D 物体的厨房,然后这些物体被逐步重新排列,最终形成一个遵循真实世界物理规律的场景。比如,该系统能确保叉子不会穿过桌上的碗——这在 3D 图形中是一种被称为“穿模” (clipping) 的常见错误,即模型之间发生重叠或交叉。

至于“可控场景生成”究竟如何引导其创作过程趋向真实,则取决于所选择的策略。其核心策略是“蒙特卡洛树搜索” (Monte Carlo tree search, MCTS),这是一种让模型创建一系列备选场景,并以不同方式进行填充以达成特定目标的算法(例如,让场景的物理表现更真实,或在场景中包含尽可能多的可食用物品)。AI 程序 AlphaGo 正是利用该策略在围棋比赛中击败人类顶尖选手,系统在做出最优选择前会预先考量一系列可能的移动序列。

“我们首次将 MCTS 应用于场景生成领域,通过将场景生成任务构建为一个序列决策过程来实现,” MIT 电子工程与计算机科学系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究员及该项目论文的第一作者 Nicholas Pfaff 表示,“我们持续在部分已生成的场景基础上进行构建,以期随时间推移产出更好或更符合需求的场景。因此,MCTS 能够创造出比其训练所用的扩散模型更为复杂的场景。”

在一次极具说服力的实验中,MCTS 在一个简单的餐厅场景中成功添加了最多达 34 件物品,其中包括堆叠得很高的多层点心蒸笼,而其训练数据中的场景平均仅包含 17 件物品。

“可控场景生成”还允许通过强化学习 (reinforcement learning) 来生成多样化的训练情景。其本质是教会扩散模型通过试错来达成目标。在初始数据训练之后,系统会进入第二个训练阶段。在这一阶段,你会设定一个奖励机制(即一个期望的结果,并用分数来衡量与目标的接近程度)。模型会自动学习如何创造得分更高的场景,其产出的情景往往与训练数据大相径庭。

用户还可以通过输入具体的视觉描述来直接向系统发出指令(例如,“一个厨房,桌上有一个碗和四个苹果”)。 “可控场景生成”能够精确地将这些指令变为现实。例如,该工具在构建食品储藏架场景时,准确遵循用户指令的成功率高达 98%,而在生成凌乱的早餐桌场景时则达到了 86%。这两项指标均比 MiDiffusion 和 DiffuScene 等同类方法高出至少 10%。

该系统还能通过提示或简单的指令来补全特定场景(例如,“使用相同的物体,设计一个不同的场景布局”)。你可以让它将苹果摆放在厨房桌子的几个盘子上,或是将棋盘游戏和书籍放到架子上。这本质上是在保留场景其余部分的同时,“填补”空白区域。

研究人员认为,他们项目的优势在于能够创造出大量可供机器人专家实际使用的场景。Pfaff 指出:“我们的一个关键发现是,用于预训练的场景不必与我们最终想要的场景完全一致。利用我们的引导方法,我们可以超越原有的数据分布,从一个‘更好’的分布中进行采样。换言之,我们可以生成我们真正想用来训练机器人的那种多样化、真实且与任务对齐的场景。”

这些丰富的场景成为了理想的测试平台,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器可以精准地将刀叉放入餐具筒,或是在多种 3D 环境下将面包重新摆放到盘子里。每一次模拟都显得流畅而逼真,让我们得以一窥未来由“可控场景生成”技术训练出的高适应性机器人的模样。

尽管该系统为生成大量多样的机器人训练数据提供了一条前景光明的道路,但研究人员表示,目前的工作更多是作为一种概念验证。未来,他们希望利用生成式 AI 来创造全新的物体和场景,而不仅仅是使用固定的资产库。他们还计划引入可活动的关节式物体(如可以打开的柜子或装有食物的罐子),以增强场景的互动性。

为了使虚拟环境更加逼真,Pfaff 及其同事可能会借鉴他们之前的研究项目“Scalable Real2Sim”,整合一个从互联网图像中提取的物体和场景库。通过扩展 AI 构建的机器人测试平台的多样性和逼真度,团队希望建立一个用户社区,共同创造海量数据,最终形成一个庞大的数据集,用于教授灵巧机器人掌握不同的技能。

“在今天,为模拟创建逼真的场景是一项极具挑战性的工作;程序化生成虽然可以快速产出大量场景,但这些场景很可能无法代表机器人在真实世界中会遇到的环境。而手动创建定制场景既耗时又昂贵,” 亚马逊机器人公司 (Amazon Robotics) 的应用科学家 Jeremy Binagia 评论道(他并未参与该项研究)。“‘可控场景生成’提供了一种更好的途径:在一个大型的预先存在的场景集合上训练一个生成模型,并(通过强化学习等策略)使其适应特定的下游应用。与以往那些依赖现成视觉语言模型或仅限于在 2D 网格上排列物体的方法相比,这种新方法保证了物理上的可行性,并全面考虑了 3D 的平移和旋转,从而能够生成远为有趣的场景。”

丰田研究院的机器人专家 Rick Cory(拥有 2008 年的科学硕士学位和 2010 年的博士学位,他未参与此项研究),他表示:“‘可控场景生成’结合了训练后处理和推理时搜索,为大规模自动化场景生成提供了一个新颖而高效的框架。更重要的是,它能够生成那些被认为对下游任务至关重要的‘前所未见’的场景。未来,将这一框架与浩瀚的互联网数据相结合,有望在实现机器人在真实世界中高效部署的道路上,解锁一个重要的里程碑。”

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗抗议血腥镇压:数百青年头颈部中枪殒命,23岁女大学生遗体被扣留

伊朗抗议血腥镇压:数百青年头颈部中枪殒命,23岁女大学生遗体被扣留

爱下厨的阿酾
2026-01-13 09:03:24
伊朗驻澳大利亚使馆降下伊斯兰国旗 换上狮子太阳的传统伊朗国旗

伊朗驻澳大利亚使馆降下伊斯兰国旗 换上狮子太阳的传统伊朗国旗

老马拉车莫少装
2026-01-12 21:16:54
C罗现场目睹皇马负于巴萨,表情全程引关注

C罗现场目睹皇马负于巴萨,表情全程引关注

星耀国际足坛
2026-01-12 19:52:51
合川文旅发力了!集结十八家餐馆提供刨猪汤,呆呆家是真撑不住了

合川文旅发力了!集结十八家餐馆提供刨猪汤,呆呆家是真撑不住了

八斗小先生
2026-01-12 17:11:15
一场大裁员正在席卷中国的银行!金饭碗也不香了,究竟是什么原因

一场大裁员正在席卷中国的银行!金饭碗也不香了,究竟是什么原因

墨兰史书
2025-12-26 19:40:03
“简直欺人太甚!”上海有顾客怒了!和好友一起吃个饭,竟被餐厅全程直播…矛盾频发,食客质疑侵犯个人隐私

“简直欺人太甚!”上海有顾客怒了!和好友一起吃个饭,竟被餐厅全程直播…矛盾频发,食客质疑侵犯个人隐私

新民晚报
2026-01-12 21:16:19
拍照被喝止!市民发问地铁站内到底能否拍照?官方回应

拍照被喝止!市民发问地铁站内到底能否拍照?官方回应

南方都市报
2026-01-12 16:57:09
呆呆妹粉丝破百万,收入惊人,几个月前还在为千元的缝纫机发愁

呆呆妹粉丝破百万,收入惊人,几个月前还在为千元的缝纫机发愁

李健政观察
2026-01-12 19:48:34
上千网友到合川帮女孩杀猪,车子从村头停到了村尾,主厨:这么多张嘴挂身上,压力太大了

上千网友到合川帮女孩杀猪,车子从村头停到了村尾,主厨:这么多张嘴挂身上,压力太大了

极目新闻
2026-01-12 13:44:34
郭晶晶没想到,首次公开35处财产的霍启刚,撕碎了多少豪门的体面

郭晶晶没想到,首次公开35处财产的霍启刚,撕碎了多少豪门的体面

李健政观察
2026-01-12 10:12:30
杜宪(左一)70岁还这么漂亮,不愧是陈道明一生挚爱

杜宪(左一)70岁还这么漂亮,不愧是陈道明一生挚爱

喜欢历史的阿繁
2026-01-13 08:55:40
拿5470万顶薪,逐渐成球队负担!作为NBA超巨,成破坏大环境的人

拿5470万顶薪,逐渐成球队负担!作为NBA超巨,成破坏大环境的人

老梁体育漫谈
2026-01-13 00:04:30
田朴珺这一次也算是踢到铁板了,她送书给段永平,却被嫌弃

田朴珺这一次也算是踢到铁板了,她送书给段永平,却被嫌弃

韩驰
2026-01-12 23:07:27
杀猪饭第二日,运营商拉来信号塔!合川文旅:一天100桌到元宵

杀猪饭第二日,运营商拉来信号塔!合川文旅:一天100桌到元宵

黑哥讲现代史
2026-01-13 04:45:17
赵露思透明衬衫惹火!吊带下的雪肌蜂腰,这身材太顶了?

赵露思透明衬衫惹火!吊带下的雪肌蜂腰,这身材太顶了?

娱乐领航家
2026-01-12 22:00:03
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
三四线城市,翻盘了

三四线城市,翻盘了

城市财经
2026-01-12 11:39:42
81岁老人每天往返甬舟两地,只为到ICU陪伴老伴,“结婚50多年,从来没有分开过”

81岁老人每天往返甬舟两地,只为到ICU陪伴老伴,“结婚50多年,从来没有分开过”

环球网资讯
2026-01-12 20:26:28
入籍新加坡却在深圳长期工作,他被认定非法居留

入籍新加坡却在深圳长期工作,他被认定非法居留

新加坡眼
2026-01-12 19:17:13
合川杀猪饭还没结束,湖南女子又准备了10头猪,数千人已报名

合川杀猪饭还没结束,湖南女子又准备了10头猪,数千人已报名

听风喃
2026-01-13 02:28:54
2026-01-13 10:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16114文章数 514479关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

牛弹琴:伊朗局势突然反转 特朗普又心生一计非常生猛

头条要闻

牛弹琴:伊朗局势突然反转 特朗普又心生一计非常生猛

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

年化400% 高利网贷“变形记”

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

时尚
亲子
游戏
公开课
军事航空

走过那个夏天,甜茶终于站上金球奖之巅

亲子要闻

原来生气可以这么可爱的?傲娇宝宝:那可不咋滴!

晨报|《控制》新作突破极限 GOG思考如何夺取市场

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版