网易首页 > 网易号 > 正文 申请入驻

上海交大团队让AI机器人拥有视觉预见力

0
分享至


这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上,论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者,其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下,如果你的机器人助手在帮你收拾房间时,能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时,它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节,上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子,它们只能看到眼前的东西,然后做出相应的动作。但问题在于,这种"走一步看一步"的方式让机器人的学习效率很低,就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现,如果让机器人能够预见未来的画面,就像给它装上了"预言眼镜",它的学习能力会大幅提升。

然而,让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样,各种任务混在一起反而效果不佳。而且,现有的机器人往往在学习动作技能后,就忘记了如何理解和执行复杂的语言指令,就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis,这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理,让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来,同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术,这些查询就像是机器人大脑中的"动作侦探",专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时,这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作,然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是,Mantis采用了一种渐进式的训练方法,就像教孩子学习一样,先从简单的开始,逐步增加难度。训练分为三个阶段:首先让机器人通过观看大量人类操作视频学会预测未来画面,这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据,让它学会将预测能力与实际动作结合起来。最后加入语言理解训练,确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率,研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关",它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时,比如抓取一个易碎的物品,系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时,系统会自动降低计算强度,从而将推理计算量减少了50%,同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是,Mantis展现出了显著更快的学习速度,传统的视觉预测方法需要十几个训练周期才能达到的效果,Mantis在几个周期内就能实现。

在真实世界的测试中,研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识,比如当你说"把杯子放到泰勒·斯威夫特身上"时,机器人需要知道泰勒·斯威夫特是谁,并在照片中找到她。第二个场景测试基础推理能力,比如"把熊放到数字(3+5)上",机器人需要计算出结果是8。第三个场景测试意图理解,比如当你说"我饿了,你能帮忙吗?"时,机器人需要理解你是想要食物,然后去拿面包。

测试结果显示,Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时,Mantis表现出了强大的泛化能力,而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现,视觉预见模块的确能显著提升动作学习效果,而其中的残差连接设计(一种让信息能够"跳跃传递"的技术)对于捕捉潜在动作信息至关重要。更有趣的是,使用人类操作视频进行预训练比从零开始训练效果更好,这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然,这项研究也有一些局限性。在真实世界的操作中,机器人偶尔会出现轻微的动作回退,这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示,未来将致力于整合更丰富的输入信息,比如3D点云数据,并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路,证明了通过巧妙的系统设计,可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来,具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理,从工厂生产到服务行业,这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑,为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1:Mantis的核心技术优势是什么?

A:Mantis的核心优势在于"解耦视觉预见"技术,它巧妙地将"看未来"和"做动作"两个任务分离处理,同时保持有效协作。这就像把原本捆绑的绳子分开,让每项任务都能发挥最佳效果,从而大幅提升机器人的学习效率和操作精度。

Q2:Mantis相比其他机器人系统有什么实际表现优势?

A:Mantis在LIBERO测试中达到96.7%成功率,超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升,传统方法需要十几个训练周期的效果,Mantis几个周期就能实现。在真实场景测试中,特别是处理新指令时,Mantis表现远优于当前最好的开源模型π0.5。

Q3:Mantis如何平衡计算效率和性能?

A:Mantis采用"自适应时序集成"技术,像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性,简单移动时自动降低计算强度。这种设计将推理计算量减少50%,同时保持相同任务成功率,大大提升了实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“棋圣”聂卫平直肠癌去世,生前喜欢喝茅台,曾一顿吃13只螃蟹

“棋圣”聂卫平直肠癌去世,生前喜欢喝茅台,曾一顿吃13只螃蟹

180视角
2026-01-15 15:09:23
宋丹丹没想到,憋了30年的窝囊气竟让继女给出了,宋丹丹赢麻了

宋丹丹没想到,憋了30年的窝囊气竟让继女给出了,宋丹丹赢麻了

聚焦风暴来袭
2026-01-14 21:42:31
难以置信!有人把呆呆家门口的土挖走,直播销售三坨赚了190元…

难以置信!有人把呆呆家门口的土挖走,直播销售三坨赚了190元…

火山诗话
2026-01-15 09:32:32
1亿美元,大谷翔平去年场外收入霸榜第一!力压詹皇、梅西

1亿美元,大谷翔平去年场外收入霸榜第一!力压詹皇、梅西

体育妞世界
2026-01-15 14:35:51
出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

清茶浅谈
2026-01-13 21:21:11
2.5T V6+7DCT!奥迪突然官宣:新车正式上市

2.5T V6+7DCT!奥迪突然官宣:新车正式上市

高科技爱好者
2026-01-15 22:56:07
杨瀚森18+11+6回应质疑,G联赛新年首战正名

杨瀚森18+11+6回应质疑,G联赛新年首战正名

大眼瞄世界
2026-01-15 22:02:31
26岁嫁49岁二婚聂卫平!陪丈夫抗癌熬21年,坎坷和眼泪都是爱

26岁嫁49岁二婚聂卫平!陪丈夫抗癌熬21年,坎坷和眼泪都是爱

法老不说教
2026-01-15 17:39:56
一片狼藉!上海街头一SUV冲向路中央,十几米中央隔离栏被撞塌!

一片狼藉!上海街头一SUV冲向路中央,十几米中央隔离栏被撞塌!

上海圈
2026-01-15 18:31:11
8连胜战绩狂飙!邱彪:我们打得像一家人 25个助攻就是最好的证明

8连胜战绩狂飙!邱彪:我们打得像一家人 25个助攻就是最好的证明

狼叔评论
2026-01-15 22:58:03
委内瑞拉和伊朗这一手“反水”直接给中国上了一堂最昂贵的战略课

委内瑞拉和伊朗这一手“反水”直接给中国上了一堂最昂贵的战略课

霹雳炮
2026-01-15 22:50:39
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
最便宜的 iPhone 来了,但这配置有点感人啊

最便宜的 iPhone 来了,但这配置有点感人啊

刘奔跑
2026-01-15 23:57:36
数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

华庭讲美食
2025-12-23 14:36:32
韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

干史人
2024-11-25 19:30:03
章泽天的新播客,干翻了“高知人设”

章泽天的新播客,干翻了“高知人设”

文娱先声
2026-01-15 17:35:18
万斯带头反对特朗普打伊朗,美国这点家底经不起折腾了

万斯带头反对特朗普打伊朗,美国这点家底经不起折腾了

杰丝聊古今
2026-01-16 00:40:35
医生提醒:高血压患者出门时,口袋一定要装3样东西,关键能救命

医生提醒:高血压患者出门时,口袋一定要装3样东西,关键能救命

王二哥老搞笑
2026-01-14 09:32:42
教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

教育部扔下重磅炸弹:2026年开始,全国一律不准买校外商业试卷​

小熊侃史
2026-01-14 07:10:07
意外!韦世豪为何公开直言黄博文是U23国足晋级功臣,引发热议

意外!韦世豪为何公开直言黄博文是U23国足晋级功臣,引发热议

余飩搞笑段子
2026-01-15 13:12:36
2026-01-16 01:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6897文章数 546关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

艺术
本地
健康
旅游
公开课

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

血常规3项异常,是身体警报!

旅游要闻

南京街头巷尾都是《寻秦记》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版