网易首页 > 网易号 > 正文 申请入驻

上海交大团队让AI机器人拥有视觉预见力

0
分享至

来源:市场资讯

(来源:科技行者)


这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上,论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者,其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下,如果你的机器人助手在帮你收拾房间时,能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时,它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节,上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子,它们只能看到眼前的东西,然后做出相应的动作。但问题在于,这种"走一步看一步"的方式让机器人的学习效率很低,就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现,如果让机器人能够预见未来的画面,就像给它装上了"预言眼镜",它的学习能力会大幅提升。

然而,让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样,各种任务混在一起反而效果不佳。而且,现有的机器人往往在学习动作技能后,就忘记了如何理解和执行复杂的语言指令,就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis,这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理,让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来,同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术,这些查询就像是机器人大脑中的"动作侦探",专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时,这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作,然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是,Mantis采用了一种渐进式的训练方法,就像教孩子学习一样,先从简单的开始,逐步增加难度。训练分为三个阶段:首先让机器人通过观看大量人类操作视频学会预测未来画面,这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据,让它学会将预测能力与实际动作结合起来。最后加入语言理解训练,确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率,研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关",它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时,比如抓取一个易碎的物品,系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时,系统会自动降低计算强度,从而将推理计算量减少了50%,同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是,Mantis展现出了显著更快的学习速度,传统的视觉预测方法需要十几个训练周期才能达到的效果,Mantis在几个周期内就能实现。

在真实世界的测试中,研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识,比如当你说"把杯子放到泰勒·斯威夫特身上"时,机器人需要知道泰勒·斯威夫特是谁,并在照片中找到她。第二个场景测试基础推理能力,比如"把熊放到数字(3+5)上",机器人需要计算出结果是8。第三个场景测试意图理解,比如当你说"我饿了,你能帮忙吗?"时,机器人需要理解你是想要食物,然后去拿面包。

测试结果显示,Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时,Mantis表现出了强大的泛化能力,而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现,视觉预见模块的确能显著提升动作学习效果,而其中的残差连接设计(一种让信息能够"跳跃传递"的技术)对于捕捉潜在动作信息至关重要。更有趣的是,使用人类操作视频进行预训练比从零开始训练效果更好,这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然,这项研究也有一些局限性。在真实世界的操作中,机器人偶尔会出现轻微的动作回退,这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示,未来将致力于整合更丰富的输入信息,比如3D点云数据,并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路,证明了通过巧妙的系统设计,可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来,具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理,从工厂生产到服务行业,这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑,为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1:Mantis的核心技术优势是什么?

A:Mantis的核心优势在于"解耦视觉预见"技术,它巧妙地将"看未来"和"做动作"两个任务分离处理,同时保持有效协作。这就像把原本捆绑的绳子分开,让每项任务都能发挥最佳效果,从而大幅提升机器人的学习效率和操作精度。

Q2:Mantis相比其他机器人系统有什么实际表现优势?

A:Mantis在LIBERO测试中达到96.7%成功率,超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升,传统方法需要十几个训练周期的效果,Mantis几个周期就能实现。在真实场景测试中,特别是处理新指令时,Mantis表现远优于当前最好的开源模型π0.5。

Q3:Mantis如何平衡计算效率和性能?

A:Mantis采用"自适应时序集成"技术,像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性,简单移动时自动降低计算强度。这种设计将推理计算量减少50%,同时保持相同任务成功率,大大提升了实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年8月地球将“失重7秒”致千万人身亡?阴谋论疯传,NASA辟谣:会有日食

今年8月地球将“失重7秒”致千万人身亡?阴谋论疯传,NASA辟谣:会有日食

红星新闻
2026-01-22 13:15:18
斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

火山诗话
2026-01-21 08:32:35
海外华人回国后态度集体转变!斩杀线开始蔓延,崇洋媚外者被打脸

海外华人回国后态度集体转变!斩杀线开始蔓延,崇洋媚外者被打脸

墨印斋
2026-01-21 16:08:39
仅用35分钟判定无罪!美联邦重拳打空:关键时刻陪审团紧急出手

仅用35分钟判定无罪!美联邦重拳打空:关键时刻陪审团紧急出手

阿器谈史
2026-01-21 21:15:34
央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

阿纂看事
2026-01-21 19:10:57
女子违停竖中指被撞社死!司机霸气发声,警方出手,这下麻烦大了

女子违停竖中指被撞社死!司机霸气发声,警方出手,这下麻烦大了

阿纂看事
2026-01-21 15:40:00
聂卫平爱女发文曝光离世真相!早年纵欲过度的他,被拖垮了身体

聂卫平爱女发文曝光离世真相!早年纵欲过度的他,被拖垮了身体

老范谈史
2026-01-21 18:25:21
深圳地铁的“谨防袈裟”要没了!最新回应

深圳地铁的“谨防袈裟”要没了!最新回应

深圳晚报
2026-01-22 12:51:28
纽约德比13连胜!尼克斯54分狂胜篮网 布伦森20分引6人上双

纽约德比13连胜!尼克斯54分狂胜篮网 布伦森20分引6人上双

醉卧浮生
2026-01-22 10:56:10
“性商第一网红”周媛爆火!一夜收割2400万

“性商第一网红”周媛爆火!一夜收割2400万

广告案例精选
2026-01-22 09:08:49
韦德:我愚蠢地把04年奥运铜牌送人了,当时觉得除金牌外都一文不值

韦德:我愚蠢地把04年奥运铜牌送人了,当时觉得除金牌外都一文不值

懂球帝
2026-01-22 11:22:52
镜报:得知长子的声明后,小贝妻子维多利亚跌倒在地彻底崩溃

镜报:得知长子的声明后,小贝妻子维多利亚跌倒在地彻底崩溃

懂球帝
2026-01-21 21:50:13
亲姐妹做局骗婚12次敛财488万元!妹妹获刑15年6个月,姐姐获刑11年6个月

亲姐妹做局骗婚12次敛财488万元!妹妹获刑15年6个月,姐姐获刑11年6个月

潇湘晨报
2026-01-22 13:57:04
今夜,暴涨!特朗普,改口了!

今夜,暴涨!特朗普,改口了!

中国基金报
2026-01-22 00:11:08
上海地铁出现“全新通道”,网友叫好:孩子们的尊严被看到了,希望全城推广!

上海地铁出现“全新通道”,网友叫好:孩子们的尊严被看到了,希望全城推广!

申消费
2026-01-22 11:10:25
柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

红星新闻
2026-01-22 13:15:18
一家餐厅,为何惊动人民日报“四评”?

一家餐厅,为何惊动人民日报“四评”?

局部有语
2026-01-21 23:05:22
当江青还不叫江青时,她是这样的

当江青还不叫江青时,她是这样的

深度报
2026-01-21 22:36:36
72分钟!特朗普在达沃斯演讲让欧洲心脏停跳两回

72分钟!特朗普在达沃斯演讲让欧洲心脏停跳两回

看看新闻Knews
2026-01-22 13:32:04
中方收到入群邀请函,特朗普也翻脸了:关税加到200%!受害者出现

中方收到入群邀请函,特朗普也翻脸了:关税加到200%!受害者出现

策略述
2026-01-21 19:13:24
2026-01-22 14:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057570文章数 5291关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

房产
健康
手机
亲子
数码

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

打工人年终总结!健康通关=赢麻了

手机要闻

三星One UI 8.5 Beta 4曝光:修复蓝牙通话BUG,系统更流畅

亲子要闻

小姑娘的跆拳道太厉害了

数码要闻

大疆Osmo Pocket 4云台相机库存清单曝光,预估2026Q1发布

无障碍浏览 进入关怀版