网易首页 > 网易号 > 正文 申请入驻

MIT团队发布可控场景生成新方法,用AI为机器人构建无限逼真世界

0
分享至



像 ChatGPT 和 Claude 这样的聊天机器人在过去三年里使用量激增,因为它们能帮你完成各种各样的任务。无论是写莎士比亚十四行诗、调试代码,还是回答冷门知识问题,这些 AI 似乎都能搞定。它们这种多才多艺的能力背后,是来自互联网的数十亿甚至万亿级别的文本数据点。

然而,仅仅依靠这些数据,远不足以将一个机器人训练成能干的家庭或工厂助理。机器人需要通过实际的演示来理解如何在多变的环境中抓取、堆叠和摆放各种物体。你可以将机器人的训练数据想象成一系列操作指南视频,一步步地拆解任务中的每个动作。在真实机器人上采集这些演示数据不仅耗时,而且过程难以精确重复。为此,工程师们尝试过用 AI 生成模拟数据(但这些数据往往与真实世界的物理规律脱节),或是耗费巨大精力从零开始手动构建每一个数字环境。

现在,来自麻省理工学院计算机科学与人工智能实验室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 与丰田研究院 (Toyota Research Institute) 的研究人员或许已经找到了解决方案,能够为机器人打造它们所需要的既多样又逼真的虚拟训练场。他们提出了一种名为“可控场景生成” (steerable scene generation) 的方法,可以程序化地创建厨房、客厅、餐厅等数字场景,供工程师模拟大量的真实世界互动与情境。该工具在一个包含超过 4400 万个 3D 房间的数据集上进行训练,这些房间中充满了桌子、盘子等各类物体的模型。它能将现有的资产布置到全新的场景中,并对每个场景进行精细调整,使其成为一个物理上精确且栩栩如生的环境。

“可控场景生成”技术通过“引导”一个扩散模型 (diffusion model) 来创建这些 3D 世界。扩散模型是一种 AI 系统,它能从随机噪声中生成视觉图像,并朝着用户所期望的日常场景演化。研究人员利用这个生成系统对环境进行“内部绘制” (in-paint),即在场景中填充特定的元素。你可以想象一块空白画布,突然间变为一个堆满 3D 物体的厨房,然后这些物体被逐步重新排列,最终形成一个遵循真实世界物理规律的场景。比如,该系统能确保叉子不会穿过桌上的碗——这在 3D 图形中是一种被称为“穿模” (clipping) 的常见错误,即模型之间发生重叠或交叉。

至于“可控场景生成”究竟如何引导其创作过程趋向真实,则取决于所选择的策略。其核心策略是“蒙特卡洛树搜索” (Monte Carlo tree search, MCTS),这是一种让模型创建一系列备选场景,并以不同方式进行填充以达成特定目标的算法(例如,让场景的物理表现更真实,或在场景中包含尽可能多的可食用物品)。AI 程序 AlphaGo 正是利用该策略在围棋比赛中击败人类顶尖选手,系统在做出最优选择前会预先考量一系列可能的移动序列。

“我们首次将 MCTS 应用于场景生成领域,通过将场景生成任务构建为一个序列决策过程来实现,” MIT 电子工程与计算机科学系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究员及该项目论文的第一作者 Nicholas Pfaff 表示,“我们持续在部分已生成的场景基础上进行构建,以期随时间推移产出更好或更符合需求的场景。因此,MCTS 能够创造出比其训练所用的扩散模型更为复杂的场景。”

在一次极具说服力的实验中,MCTS 在一个简单的餐厅场景中成功添加了最多达 34 件物品,其中包括堆叠得很高的多层点心蒸笼,而其训练数据中的场景平均仅包含 17 件物品。

“可控场景生成”还允许通过强化学习 (reinforcement learning) 来生成多样化的训练情景。其本质是教会扩散模型通过试错来达成目标。在初始数据训练之后,系统会进入第二个训练阶段。在这一阶段,你会设定一个奖励机制(即一个期望的结果,并用分数来衡量与目标的接近程度)。模型会自动学习如何创造得分更高的场景,其产出的情景往往与训练数据大相径庭。

用户还可以通过输入具体的视觉描述来直接向系统发出指令(例如,“一个厨房,桌上有一个碗和四个苹果”)。 “可控场景生成”能够精确地将这些指令变为现实。例如,该工具在构建食品储藏架场景时,准确遵循用户指令的成功率高达 98%,而在生成凌乱的早餐桌场景时则达到了 86%。这两项指标均比 MiDiffusion 和 DiffuScene 等同类方法高出至少 10%。

该系统还能通过提示或简单的指令来补全特定场景(例如,“使用相同的物体,设计一个不同的场景布局”)。你可以让它将苹果摆放在厨房桌子的几个盘子上,或是将棋盘游戏和书籍放到架子上。这本质上是在保留场景其余部分的同时,“填补”空白区域。

研究人员认为,他们项目的优势在于能够创造出大量可供机器人专家实际使用的场景。Pfaff 指出:“我们的一个关键发现是,用于预训练的场景不必与我们最终想要的场景完全一致。利用我们的引导方法,我们可以超越原有的数据分布,从一个‘更好’的分布中进行采样。换言之,我们可以生成我们真正想用来训练机器人的那种多样化、真实且与任务对齐的场景。”

这些丰富的场景成为了理想的测试平台,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器可以精准地将刀叉放入餐具筒,或是在多种 3D 环境下将面包重新摆放到盘子里。每一次模拟都显得流畅而逼真,让我们得以一窥未来由“可控场景生成”技术训练出的高适应性机器人的模样。

尽管该系统为生成大量多样的机器人训练数据提供了一条前景光明的道路,但研究人员表示,目前的工作更多是作为一种概念验证。未来,他们希望利用生成式 AI 来创造全新的物体和场景,而不仅仅是使用固定的资产库。他们还计划引入可活动的关节式物体(如可以打开的柜子或装有食物的罐子),以增强场景的互动性。

为了使虚拟环境更加逼真,Pfaff 及其同事可能会借鉴他们之前的研究项目“Scalable Real2Sim”,整合一个从互联网图像中提取的物体和场景库。通过扩展 AI 构建的机器人测试平台的多样性和逼真度,团队希望建立一个用户社区,共同创造海量数据,最终形成一个庞大的数据集,用于教授灵巧机器人掌握不同的技能。

“在今天,为模拟创建逼真的场景是一项极具挑战性的工作;程序化生成虽然可以快速产出大量场景,但这些场景很可能无法代表机器人在真实世界中会遇到的环境。而手动创建定制场景既耗时又昂贵,” 亚马逊机器人公司 (Amazon Robotics) 的应用科学家 Jeremy Binagia 评论道(他并未参与该项研究)。“‘可控场景生成’提供了一种更好的途径:在一个大型的预先存在的场景集合上训练一个生成模型,并(通过强化学习等策略)使其适应特定的下游应用。与以往那些依赖现成视觉语言模型或仅限于在 2D 网格上排列物体的方法相比,这种新方法保证了物理上的可行性,并全面考虑了 3D 的平移和旋转,从而能够生成远为有趣的场景。”

丰田研究院的机器人专家 Rick Cory(拥有 2008 年的科学硕士学位和 2010 年的博士学位,他未参与此项研究),他表示:“‘可控场景生成’结合了训练后处理和推理时搜索,为大规模自动化场景生成提供了一个新颖而高效的框架。更重要的是,它能够生成那些被认为对下游任务至关重要的‘前所未见’的场景。未来,将这一框架与浩瀚的互联网数据相结合,有望在实现机器人在真实世界中高效部署的道路上,解锁一个重要的里程碑。”

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2016年,肯尼亚中止中企承建的工程,既拒绝赔付176亿违约金,还表示己方为受害者

2016年,肯尼亚中止中企承建的工程,既拒绝赔付176亿违约金,还表示己方为受害者

寄史言志
2026-01-12 20:52:22
2026年央视春晚彩排曝光后,评论区炸锅,赵本山的担心恐要成真了

2026年央视春晚彩排曝光后,评论区炸锅,赵本山的担心恐要成真了

小小李娱
2026-01-07 17:41:55
同学会班长让我坐司机桌,结账时我叫来经理:这桌免单,其余AA

同学会班长让我坐司机桌,结账时我叫来经理:这桌免单,其余AA

晓艾故事汇
2026-01-12 08:02:24
儿童患癌越来越多!多名专家呼吁:这些东西少给孩子吃!危害大!

儿童患癌越来越多!多名专家呼吁:这些东西少给孩子吃!危害大!

一口娱乐
2026-01-11 09:38:18
羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

丰谭笔录
2026-01-07 10:59:38
皇马官方:卡斯蒂亚主帅阿韦洛亚执教一线队

皇马官方:卡斯蒂亚主帅阿韦洛亚执教一线队

懂球帝
2026-01-13 01:41:07
霍启刚公开个人财产:有35套房子,7套自用28套出租,网友炸锅

霍启刚公开个人财产:有35套房子,7套自用28套出租,网友炸锅

恪守原则和底线
2026-01-12 05:45:06
13岁女孩冰窟救男童 中央政法委通报表扬

13岁女孩冰窟救男童 中央政法委通报表扬

环球网资讯
2026-01-12 17:27:23
印度最终可能会成为地球大患,因为它无限制的人口增长

印度最终可能会成为地球大患,因为它无限制的人口增长

扶苏聊历史
2026-01-12 19:00:07
1985年,一场误判让中国付出了上万亿的代价,一代巨星抱憾而终!

1985年,一场误判让中国付出了上万亿的代价,一代巨星抱憾而终!

老范谈史
2025-12-23 20:30:25
超6成国人下一辆车预算30万元以上?网友:跟2025年购车均价差太远

超6成国人下一辆车预算30万元以上?网友:跟2025年购车均价差太远

都市快报橙柿互动
2026-01-12 22:36:16
曾志伟卸任总经理首次露面,在包厢用餐美女倒酒,满脸通红太尽兴

曾志伟卸任总经理首次露面,在包厢用餐美女倒酒,满脸通红太尽兴

动物奇奇怪怪
2026-01-13 00:30:16
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
医院欠薪的后遗症来了:大量医生选择年底辞职!

医院欠薪的后遗症来了:大量医生选择年底辞职!

黯泉
2026-01-12 22:19:17
开拓者VS勇士,杨瀚森NBA再战库里格林有望登场,目标8+4+2

开拓者VS勇士,杨瀚森NBA再战库里格林有望登场,目标8+4+2

二哥聊球
2026-01-13 11:21:56
男子气炸!742元买“上海迪士尼”套餐,却被拦在乐园大门外,现场再付1205元!这锅谁背

男子气炸!742元买“上海迪士尼”套餐,却被拦在乐园大门外,现场再付1205元!这锅谁背

南国今报
2026-01-12 19:32:21
伊朗官员称正面临“四线作战”,美国和以色列参与骚乱幕后煽动

伊朗官员称正面临“四线作战”,美国和以色列参与骚乱幕后煽动

上观新闻
2026-01-13 04:44:05
一日英超动向:曼联临时主帅会迅速公布,瓜迪奥拉大弟子很出色

一日英超动向:曼联临时主帅会迅速公布,瓜迪奥拉大弟子很出色

里芃芃体育
2026-01-13 12:00:13
45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

瓜汁橘长Dr
2026-01-09 17:44:33
中国的龙脉上埋了3个人:一个挖不了,一个不敢挖,一个不能挖

中国的龙脉上埋了3个人:一个挖不了,一个不敢挖,一个不能挖

小熊侃史
2026-01-13 07:05:06
2026-01-13 12:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16114文章数 514479关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

印度企业未能获得中国技术 叫停大项目

头条要闻

印度企业未能获得中国技术 叫停大项目

体育要闻

阿隆索得知下课后先是惊讶 然后表示如释重负

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

中国一口气申报20万颗卫星,意味着什么?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

时尚
游戏
数码
本地
军事航空

走过那个夏天,甜茶终于站上金球奖之巅

黑旗&波斯王子RE真要来了?网站疯狂更新!

数码要闻

TRYX推出F50机箱:布艺面板+贯流风机,可选黑/白/粉

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

军事要闻

特朗普拿中俄当幌子被北欧官员拆穿:完全不属实

无障碍浏览 进入关怀版