网易首页 > 网易号 > 正文 申请入驻

上海交大团队让AI机器人拥有视觉预见力

0
分享至


这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上,论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者,其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下,如果你的机器人助手在帮你收拾房间时,能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时,它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节,上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子,它们只能看到眼前的东西,然后做出相应的动作。但问题在于,这种"走一步看一步"的方式让机器人的学习效率很低,就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现,如果让机器人能够预见未来的画面,就像给它装上了"预言眼镜",它的学习能力会大幅提升。

然而,让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样,各种任务混在一起反而效果不佳。而且,现有的机器人往往在学习动作技能后,就忘记了如何理解和执行复杂的语言指令,就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis,这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理,让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来,同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术,这些查询就像是机器人大脑中的"动作侦探",专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时,这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作,然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是,Mantis采用了一种渐进式的训练方法,就像教孩子学习一样,先从简单的开始,逐步增加难度。训练分为三个阶段:首先让机器人通过观看大量人类操作视频学会预测未来画面,这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据,让它学会将预测能力与实际动作结合起来。最后加入语言理解训练,确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率,研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关",它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时,比如抓取一个易碎的物品,系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时,系统会自动降低计算强度,从而将推理计算量减少了50%,同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是,Mantis展现出了显著更快的学习速度,传统的视觉预测方法需要十几个训练周期才能达到的效果,Mantis在几个周期内就能实现。

在真实世界的测试中,研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识,比如当你说"把杯子放到泰勒·斯威夫特身上"时,机器人需要知道泰勒·斯威夫特是谁,并在照片中找到她。第二个场景测试基础推理能力,比如"把熊放到数字(3+5)上",机器人需要计算出结果是8。第三个场景测试意图理解,比如当你说"我饿了,你能帮忙吗?"时,机器人需要理解你是想要食物,然后去拿面包。

测试结果显示,Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时,Mantis表现出了强大的泛化能力,而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现,视觉预见模块的确能显著提升动作学习效果,而其中的残差连接设计(一种让信息能够"跳跃传递"的技术)对于捕捉潜在动作信息至关重要。更有趣的是,使用人类操作视频进行预训练比从零开始训练效果更好,这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然,这项研究也有一些局限性。在真实世界的操作中,机器人偶尔会出现轻微的动作回退,这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示,未来将致力于整合更丰富的输入信息,比如3D点云数据,并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路,证明了通过巧妙的系统设计,可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来,具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理,从工厂生产到服务行业,这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑,为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1:Mantis的核心技术优势是什么?

A:Mantis的核心优势在于"解耦视觉预见"技术,它巧妙地将"看未来"和"做动作"两个任务分离处理,同时保持有效协作。这就像把原本捆绑的绳子分开,让每项任务都能发挥最佳效果,从而大幅提升机器人的学习效率和操作精度。

Q2:Mantis相比其他机器人系统有什么实际表现优势?

A:Mantis在LIBERO测试中达到96.7%成功率,超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升,传统方法需要十几个训练周期的效果,Mantis几个周期就能实现。在真实场景测试中,特别是处理新指令时,Mantis表现远优于当前最好的开源模型π0.5。

Q3:Mantis如何平衡计算效率和性能?

A:Mantis采用"自适应时序集成"技术,像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性,简单移动时自动降低计算强度。这种设计将推理计算量减少50%,同时保持相同任务成功率,大大提升了实用性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗称纳坦兹核设施遭美以两次袭击

伊朗称纳坦兹核设施遭美以两次袭击

新华社
2026-03-03 07:22:03
不要捡!不要捡!最近深圳街头大量出现

不要捡!不要捡!最近深圳街头大量出现

深圳晚报
2026-03-03 08:26:09
读懂今年全国两会,就能读懂中国下一个五年发展

读懂今年全国两会,就能读懂中国下一个五年发展

时代周报
2026-03-02 11:46:24
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

医者荣耀
2025-09-09 12:05:05
日寇陆军中将远藤三郎:读罢《论持久战》,方知军国主义必败

日寇陆军中将远藤三郎:读罢《论持久战》,方知军国主义必败

又是美好的日子
2026-03-02 23:22:50
中东多地关闭领空,急盼回国!全球唯一七星级酒店迪拜帆船酒店遇袭起火,中国母女36万元囤12张机票;广东籍游客亲历导弹袭击“紧张时刻”

中东多地关闭领空,急盼回国!全球唯一七星级酒店迪拜帆船酒店遇袭起火,中国母女36万元囤12张机票;广东籍游客亲历导弹袭击“紧张时刻”

极目新闻
2026-03-03 11:20:37
新一轮导弹向以色列发射

新一轮导弹向以色列发射

财联社
2026-02-28 16:30:07
马卡揭秘马斯坦托诺怒喷裁判:真耻辱,真TM的耻辱

马卡揭秘马斯坦托诺怒喷裁判:真耻辱,真TM的耻辱

懂球帝
2026-03-03 07:27:05
女子新买LV羽绒服穿3小时掉色?店员:LV衣服不能沾水,汗液浸到衣服上面出现褪色

女子新买LV羽绒服穿3小时掉色?店员:LV衣服不能沾水,汗液浸到衣服上面出现褪色

现代快报
2026-03-02 15:09:09
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
堪称第二个邓文迪!27岁清华博士,生3娃还能替世界首富掌钱袋

堪称第二个邓文迪!27岁清华博士,生3娃还能替世界首富掌钱袋

通文知史
2026-03-02 12:00:03
万人大厂宣布裁员 40%:利润在涨,人却多余了

万人大厂宣布裁员 40%:利润在涨,人却多余了

互联网早读课
2026-03-03 08:09:38
最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

墨兰史书
2026-02-23 22:10:47
外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

环球网资讯
2026-03-03 12:01:22
三人结拜为兄弟,建国后:一人是铁匠,一人是农民,一人是主席

三人结拜为兄弟,建国后:一人是铁匠,一人是农民,一人是主席

抽象派大师
2026-03-03 03:39:03
克林顿点名特朗普

克林顿点名特朗普

南方都市报
2026-03-03 12:22:25
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
特朗普怎么都没想到:哈梅死前留下25字遗言,中国不许三件事发生

特朗普怎么都没想到:哈梅死前留下25字遗言,中国不许三件事发生

小涛叨叨
2026-03-02 18:05:02
2026-03-03 13:36:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7408文章数 553关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

房产
时尚
数码
本地
军事航空

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

数码要闻

NVIDIA新驱动解决风扇停转问题:但悄悄限制RTX 50 GPU电压!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版