网易首页 > 网易号 > 正文 申请入驻

麻省理工研发复杂视觉任务AI规划新方法,成功率提升至70%

0
分享至


麻省理工学院的研究人员开发出一种基于生成式AI驱动的新方法,用于规划复杂的长期视觉任务,如机器人导航,其效果比现有技术提高了约一倍。

该方法使用专门的视觉语言模型来感知图像中的场景,并模拟达成目标所需的动作。然后,第二个模型将这些模拟转换为标准的规划问题编程语言,并改进解决方案。

最终,该系统会自动生成一系列文件,这些文件可以输入到经典的规划软件中,由软件计算出实现目标的计划。这个两步系统生成的计划平均成功率约为70%,超越了最佳基准方法的30%成功率。

重要的是,该系统能够解决之前从未遇到过的新问题,这使其非常适合条件随时可能发生变化的真实环境。

麻省理工学院航空航天系研究生、该技术开放获取论文的第一作者郝依伦表示:"我们的框架结合了视觉语言模型的优势,如理解图像的能力,以及正式求解器强大的规划能力。它可以接收单张图像,通过模拟处理,然后生成可靠的长期规划,这在许多现实应用中都很有用。"

参与这项研究的还有麻省理工学院信息与决策系统实验室研究生陈永超、航空航天系副教授兼信息与决策系统实验室首席研究员范楚楚,以及麻省理工学院-IBM沃森人工智能实验室研究科学家张杨。该论文将在学习表征国际会议上发表。

应对视觉任务挑战

在过去几年中,范楚楚和她的同事们一直在研究使用生成式AI模型进行复杂推理和规划,通常采用大语言模型来处理文本输入。

许多现实世界的规划问题,如机器人装配和自动驾驶,都有视觉输入,而大语言模型无法很好地独立处理这些输入。研究人员试图通过利用视觉语言模型这一能够处理图像和文本的强大AI系统来扩展到视觉领域。

但是,视觉语言模型难以理解场景中物体之间的空间关系,往往无法在多个步骤中正确推理。这使得将视觉语言模型用于长程规划变得困难。

另一方面,科学家们已经开发出稳健的正式规划器,能够为复杂情况生成有效的长期规划。但是,这些软件系统无法处理视觉输入,并且需要专家知识将问题编码为求解器能够理解的语言。

范楚楚和她的团队构建了一个自动规划系统,融合了两种方法的优势。该系统被称为视觉语言模型引导的正式规划系统,利用两个专门的视觉语言模型协同工作,将视觉规划问题转换为正式规划软件的即用文件。

研究人员首先仔细训练了一个名为SimVLM的小型模型,专门用自然语言描述图像中的场景,并模拟该场景中的动作序列。然后,一个更大的模型GenVLM使用SimVLM的描述,生成一组采用规划域定义语言这一正式规划语言的初始文件。

这些文件可以直接输入到经典的规划域定义语言求解器中,由求解器计算出解决任务的逐步计划。GenVLM将求解器的结果与模拟器的结果进行比较,并迭代改进规划域定义语言文件。

郝依伦说:"生成器和模拟器协同工作,能够达到完全相同的结果,即实现目标的动作模拟。"

由于GenVLM是一个大型生成式AI模型,它在训练过程中见过许多规划域定义语言的例子,并学会了这种正式语言如何解决各种问题。这种现有知识使模型能够生成准确的规划域定义语言文件。

灵活的方法

视觉语言模型引导的正式规划系统生成两个独立的规划域定义语言文件。第一个是域文件,定义环境、有效动作和域规则。它还生成一个问题文件,定义特定问题的初始状态和目标。

郝依伦解释说:"规划域定义语言的一个优势是,域文件对于该环境中的所有实例都是相同的。这使我们的框架在同一域下的未见实例中具有良好的泛化能力。"

为了使系统有效泛化,研究人员需要为SimVLM精心设计足够的训练数据,使模型学会理解问题和目标,而不是记住场景中的模式。在测试中,SimVLM成功描述场景、模拟动作并检测是否达到目标的成功率约为85%。

总体而言,视觉语言模型引导的正式规划框架在六个2D规划任务上达到了约60%的成功率,在两个3D任务(包括多机器人协作和机器人装配)上达到了超过80%的成功率。它还为超过50%的未见过的场景生成了有效计划,远超基准方法。

范楚楚补充说:"我们的框架可以在不同情况下规则发生变化时进行泛化。这为我们的系统提供了解决多种基于视觉的规划问题的灵活性。"

未来,研究人员希望让视觉语言模型引导的正式规划系统能够处理更复杂的场景,并探索识别和缓解视觉语言模型幻觉的方法。

范楚楚说:"长远来看,生成式AI模型可能会作为智能体,利用正确的工具解决更加复杂的问题。但是,拥有正确的工具意味着什么,我们如何整合这些工具?还有很长的路要走,但通过将基于视觉的规划纳入其中,这项工作是拼图的重要组成部分。"

这项工作部分得到了麻省理工学院-IBM沃森人工智能实验室的资助。

Q&A

Q1:视觉语言模型引导的正式规划系统是什么?它能解决什么问题?

A:视觉语言模型引导的正式规划系统是MIT开发的AI驱动规划方法,专门用于解决复杂的长期视觉任务,如机器人导航。该系统使用两个专门的视觉语言模型协同工作,将视觉规划问题转换为正式规划软件可用的文件,平均成功率约为70%,是现有方法的两倍多。

Q2:这个系统相比传统方法有什么优势?

A:该系统结合了视觉语言模型理解图像的优势和正式求解器强大的规划能力。与传统方法相比,它能够处理视觉输入,解决之前从未遇到过的新问题,并且在不同规则变化的情况下具有良好的泛化能力,成功率从30%提升至70%。

Q3:视觉语言模型引导的正式规划系统如何工作?

A:系统采用两步工作流程:首先,SimVLM模型用自然语言描述图像场景并模拟动作序列;然后,GenVLM模型根据描述生成规划域定义语言文件,这些文件可以输入到经典规划软件中计算出实现目标的逐步计划。两个模型协同工作,迭代改进解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

36万亿美债还不起,特朗普决定“弄死”大债主,为此不惜自曝家丑

杰丝聊古今
2026-04-19 20:21:05
金庸给了她最丑的脸,一身稀烂的武功,她却成了读者最想娶的女侠

金庸给了她最丑的脸,一身稀烂的武功,她却成了读者最想娶的女侠

耳东文史
2026-04-21 00:07:39
俄总参谋长宣布俄军已完全解放卢甘斯克人民共和国

俄总参谋长宣布俄军已完全解放卢甘斯克人民共和国

俄罗斯卫星通讯社
2026-04-21 15:11:14
建国后毛主席为何喜欢去杭州?去了53次,那里有三个人让他牵挂

建国后毛主席为何喜欢去杭州?去了53次,那里有三个人让他牵挂

元哥说历史
2026-04-20 21:10:03
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
美媒文章:美国再次掉进“武力干预”陷阱

美媒文章:美国再次掉进“武力干预”陷阱

参考消息
2026-04-20 15:27:02
罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

沧海一书客
2026-04-21 03:00:52
2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

睡前讲故事
2026-03-30 13:48:58
呼吁日本人民起来反对苏联霸权主义 1976年3月9日《人民日报》

呼吁日本人民起来反对苏联霸权主义 1976年3月9日《人民日报》

那些看得见的老照片
2026-04-14 06:50:06
马筱梅官宣搬家,自爆汪宝很受爷爷奶奶宠爱,百日宴会办得很盛大

马筱梅官宣搬家,自爆汪宝很受爷爷奶奶宠爱,百日宴会办得很盛大

小娱乐悠悠
2026-04-21 10:25:31
哈登生涯最佳一战!狂轰28+5+4+5+1全能爆发,加盟骑士成最优解!

哈登生涯最佳一战!狂轰28+5+4+5+1全能爆发,加盟骑士成最优解!

田先生篮球
2026-04-21 10:25:55
不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

史行途
2026-04-20 00:15:27
世锦赛4月21日赛程:火箭亮相!中国00后决战墨菲,16强将出11席

世锦赛4月21日赛程:火箭亮相!中国00后决战墨菲,16强将出11席

小火箭爱体育
2026-04-21 07:59:23
国内成品油价迎年内首次下跌,加满一箱油少花22元

国内成品油价迎年内首次下跌,加满一箱油少花22元

界面新闻
2026-04-21 14:57:01
哈兰德晒与加布里埃尔对抗照:兄弟,我已经结婚了

哈兰德晒与加布里埃尔对抗照:兄弟,我已经结婚了

懂球帝
2026-04-20 21:50:53
中方迟迟不点头,特朗普急了,拖家带口直奔中国,真实目的不简单

中方迟迟不点头,特朗普急了,拖家带口直奔中国,真实目的不简单

陈辉论剑
2026-04-20 17:04:24
为什么说没有三位党外副主席,新中国就坐不稳?看毛主席顶级阳谋

为什么说没有三位党外副主席,新中国就坐不稳?看毛主席顶级阳谋

吕醿极限手工
2026-04-21 09:56:40
5月1日起,医院这些新变化请收好:挂号、检查、缴费全变样

5月1日起,医院这些新变化请收好:挂号、检查、缴费全变样

洞见小能手
2026-04-21 01:40:03
重大转折!特朗普官宣:伊朗同意交出浓缩铀,自己将亲赴伊斯兰堡

重大转折!特朗普官宣:伊朗同意交出浓缩铀,自己将亲赴伊斯兰堡

瞩望云霄
2026-04-20 17:47:22
2026-04-21 15:55:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17828文章数 49700关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

女子21万全款购车 意外翻到车机相册发现该车为"展车"

头条要闻

女子21万全款购车 意外翻到车机相册发现该车为"展车"

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
教育
手机
时尚
健康

旅游要闻

上海的魅力在哪里?春天来看它……

教育要闻

湖北科技职业学院开展创业指导系列活动

手机要闻

HarmonyOS 6.1适配机型全面公布 鸿蒙生态迈入好用易用新阶段

今年春夏最流行的4组通勤穿搭,谁穿谁时髦!

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版