网易首页 > 网易号 > 正文 申请入驻

复旦大学团队让机器人学会"先摸摸底再动手"

0
分享至


这项由复旦大学、上海创新研究院和同济大学联合开展的研究,于2026年6月发表在arXiv预印本平台,论文编号为arXiv:2606.26025。研究的核心问题是:当一台机器人被换了个新角度的摄像头,它还能正常干活吗?答案令人遗憾——通常不能。而这篇论文提出的方法,正是为了解决这个令机器人工程师头疼已久的问题。

一、机器人换个角度就"失忆"了,这事有多麻烦

把一台经过精心训练的机器人从正面摄像头换成侧面摄像头,它的表现往往会急剧下降,就像一个从小在上海长大的孩子突然被要求用粤语做数学题——知识还在,但输入的格式变了,整个系统就乱了套。

这背后的原因其实很好理解。现代机器人依赖的是一种叫做"视觉-语言-行动模型"(Vision-Language-Action Model,简称VLA)的系统。这类系统的工作方式是:给它看一张当前环境的照片,再告诉它一句话指令(比如"把红色杯子放到蓝色盘子上"),它就输出一系列动作。问题在于,这个系统在训练时默默记住了摄像头的位置、角度这些"背景条件",它把这些条件当成了永远不变的事实。一旦摄像头换了位置,它看到的世界就像从不同角度看同一张桌子——明明是同一个东西,但视觉上差别极大,机器人就会判断错误,抓空、偏移、失败。

研究团队把这个问题称为"系统配置"(system configuration)的缺失。机器人不知道自己当前处于什么样的视角、什么样的物理设置下,所以无法做出正确的调整。传统的解决方法是重新收集新视角的数据,再花大量时间重新训练模型——这不仅费时费钱,而且每换一个新环境都要重复一遍,根本不现实。

正是在这个背景下,复旦大学的研究团队提出了一个截然不同的思路,他们把这个方法叫做"上下文世界建模"(In-Context World Modeling,简称ICWM)。

二、人类是怎么适应新环境的——灵感来自一个生活场景

研究团队的灵感来自一个非常日常的场景:你第一次拿到一个陌生的游戏手柄或者遥控器,根本不知道哪个键对应什么功能。你不会呆呆地等人教你,而是会随机按几下,看看屏幕上发生了什么,然后根据反应推测出按键与结果的对应关系。几秒钟之内,你就建立起了一套对这个"系统"的基本理解,然后才开始认真操作。

机器人能不能也这样做?在真正开始执行任务之前,先随机动几下,观察摄像头拍到的画面变化,从而推断出"我现在处于什么样的视角"?这就是ICWM的核心思路。

研究团队把这个"随机动几下、看看发生什么"的过程叫做"主动探测"(Active Probing)。机器人在正式开始任务之前,会在安全的工作区域内随机移动几次机械臂,记录下每次移动前后的画面,以及自己执行了什么动作。这些"动作-画面变化"的片段,就像是机器人给自己做的一份快速"环境摸底报告"。

关键在于,这份报告不需要包含任何任务相关的信息。机器人不需要先试着抓一次目标物体,也不需要人类帮它演示一遍任务。它只需要在工作区域里随机晃几下,就能获得足够的信息来理解当前的视角和物理配置。

三、"摸底报告"怎么被利用——模型的训练和推理机制

要让机器人学会利用这份"摸底报告",需要在训练阶段就把这个机制内置进去。

训练时,研究团队为每一个训练样本都额外准备了若干段随机运动的片段。这些片段来自各种不同视角下的机器人探索过程,内容完全与具体任务无关。模型在学习如何完成任务的同时,也在学习如何从这些随机运动片段中提取"当前系统是什么样的"这一信息。

用一个比喻来说:这就像一个厨师不仅要学做菜,还要学会在进入陌生厨房后,先拉开几个抽屉、开关几个炉灶,感受一下这个厨房的布局和设备特性,然后再正式开始烹饪。训练时就让厨师反复练习这套"先摸底再做菜"的流程,等到真正上场时,他就知道该怎么应对不熟悉的厨房了。

在技术实现上,ICWM没有为这个"摸底"功能额外设计一套新的模块或参数。取而代之的是,它让原有的模型骨架(一个叫做Qwen2.5-VL-3B的视觉语言模型)同时承担两个任务:一是理解当前的系统配置,二是生成任务动作。这两件事共享同一套参数,因为研究团队认为这两件事在本质上需要相同的能力——都需要理解"看到的画面"和"做出的动作"之间的对应关系。

推理(也就是实际使用)时,流程分为两个阶段。第一阶段,机器人在正式任务开始前执行若干次随机探测动作,记录下每次动作对应的前后画面,形成一个"探测上下文"。第二阶段,机器人把这些探测片段作为"前情提要"输入模型,模型先处理这些片段,建立起对当前系统配置的隐式理解,然后再接收任务指令和当前观测画面,生成精准的任务动作。整个过程不需要更新任何参数,也不需要人类提供任何演示,机器人完全自主完成。

四、实验结果——数字背后的实际意义

研究团队在两个层面上验证了ICWM的效果:一是仿真环境,二是真实机器人平台。

在仿真环境中,他们使用了一个叫做LIBERO的标准机器人学习基准测试平台,这个平台包含四类任务:需要理解空间位置关系的任务、需要根据指令选择不同目标的任务、需要识别各种物体的任务,以及需要连续完成多个步骤的长程任务。训练时使用8个不同方向的摄像头角度,测试时使用6个从未出现过的新角度。

在面对这些从未见过的新视角时,ICWM相比于普通的多视角训练基线(即同样接受了多视角训练数据但没有探测机制的模型)平均成功率提升了13%。如果拿去和明确告诉模型"当前摄像头角度是多少度"的版本相比,ICWM依然高出9.5%——这说明仅仅知道角度数字是不够的,真正有用的是亲身"感受"过当前视角下的运动反馈。

特别值得注意的是长程任务的表现。在需要连续执行多个步骤的任务上,ICWM相比普通多视角训练的提升幅度最大,在已见视角上高出29.9%,在新视角上高出26.3%。这背后的逻辑是:长程任务中,每一步的微小偏差都会在后续步骤中累积放大,视角带来的误差在早期步骤中如果没有被纠正,到后面就会演变成彻底的失败。而ICWM通过对当前视角的正确理解,从一开始就减少了这种误差,防止了错误的级联扩散。

在真实机器人平台上,研究团队使用了一台UR5e机械臂,配备12个摄像头,其中6个用于训练,6个作为测试时的新视角。测试任务包括叠杯子、抬篮子、抓取物品放置等四类。结果显示,当摄像头从训练视角切换到测试视角时,普通多视角训练模型的成功率从68%直接跌到17%,而ICWM的加入大幅缓解了这种下滑。在抓取任务上,ICWM比普通基线高出90%;在叠杯任务上更是高出175%。

研究团队还通过视频记录展示了具体的失败模式。没有ICWM的机器人在新视角下会出现末端执行器的位置偏移(抓的位置不准)和过早关闭夹爪(还没抓到就夹上了)这两类典型错误,而加入ICWM后这两类错误都得到了明显改善。

五、为什么这个方法有效——有没有理论支撑

研究团队不满足于仅仅展示实验数据,他们还从信息论的角度论证了为什么"先随机动几下"能帮助机器人理解当前的系统配置。

核心论点是这样的:从单张画面中,你很难准确判断摄像头装在哪个位置、角度是多少。但如果你同时知道"我往左移动了多少,画面中的机械臂往哪个方向移动了多少",这个信息就丰富得多。研究团队用严格的数学证明表明,"一系列动作加上对应的画面变化"包含的关于系统配置的信息,一定严格多于单张画面。而且这个结论对任何类型的动作序列都成立,包括完全随机的、与任务无关的动作——这从理论上为"随机探测也有效"提供了保证。

六、探测方式重要吗——一个实用性问题的解答

既然要在任务前随机动几下,那么动的方式有没有讲究?研究团队测试了四种不同的探测策略:完全随机方向、只在水平面内移动、只沿垂直方向移动、只改变末端执行器的朝向。

结果发现,这四种策略的表现差异不大,但都比不做任何探测要好15%到27%。这意味着ICWM的收益主要来自"有探测"这件事本身,而不是探测动作的具体设计。这对实际部署来说是个好消息——不需要精心设计探测路径,随机动几下就能获得大部分收益。不同策略之间的细微差异表明,不同方向的运动会暴露系统配置的不同侧面,没有哪一种能覆盖所有情况,但任何一种都能带来显著帮助。

七、ICWM能不能应对视角以外的变化

研究团队还测试了ICWM在两类非摄像头变化情况下的表现,以验证这个方法是否有更广泛的适用性。

第一类是场景语义变化,包括在工作台上摆放与任务无关的干扰物品,以及把桌面换成训练时从未出现过的新材质。在这两种情况下,ICWM相比普通基线依然保持了一定的优势,不过提升幅度比视角变化时要小。研究团队认为这主要是因为训练数据中场景多样性不够充分,而非方法本身的局限。

第二类是机器人形态变化。他们在机械臂的夹爪法兰上安装了不同长度的刚性垫片(20毫米、40毫米、80毫米),从而改变了机械臂实际的运动学参数——也就是说,同样的控制指令现在会产生略微不同的实际位移。面对这种变化,普通基线模型成功率大幅下降,而ICWM通过探测阶段感受到的运动反馈,能够隐式推断出当前夹爪的有效长度,从而保持了更稳定的表现。

为了进一步验证这一点,研究团队还在另一款叫做WindowX的机器人平台上做了测试。他们把机器人的连杆长度分别缩短到原始长度的90%和80%(训练时只用了100%和70%两个极端情况),测试模型对从未见过的中间状态的泛化能力。随着连杆缩短幅度增大,普通基线的成功率从57%腰斩到28%,而ICWM从77%相对温和地降到62%,两者之间的差距反而随着形态变化的增大而扩大——变化越大,ICWM的优势越明显。

八、计算开销——这个方法实用吗

探测阶段需要额外的计算,那么它会不会让机器人反应变慢?研究团队在一张NVIDIA RTX 4090显卡上测量了推理延迟。不加任何上下文时,每步推理需要0.112秒;加入3段探测片段后变为0.165秒;加入5段时变为0.185秒。对于机器人操控任务来说,这个延迟是完全可以接受的,不会影响控制循环的稳定性。

更重要的是,由于探测上下文在整个任务执行过程中是固定不变的(只要摄像头没动),可以用一种叫做"KV缓存"的技术把上下文的中间计算结果存起来,后续每一步推理直接复用,把额外的计算开销降回到接近零基线的水平。探测阶段本身(20次随机动作)在真实机器人上只需要5到6秒,且整个任务执行期间只做一次,代价极小。

九、模型真的在"理解"视角,还是只是记住了图案

研究团队做了几个有说服力的实验来检验ICWM是否真的在做系统识别,而不只是在做表面的模式匹配。

第一个实验是把真实的探测上下文换成来自180度偏转视角的错误探测上下文("假上下文")。如果模型只是在忽略上下文、靠自己猜,那么假上下文不应该有什么影响。但结果是,假上下文的表现(平均成功率18.9%)比完全不提供任何上下文(22.0%)还要差。这说明错误的上下文会主动误导模型,而不是被忽视——这意味着模型确实在认真参考上下文内容。正确上下文带来的提升(+13.6%)与错误上下文带来的下降(-12.0%)在量级上高度对称,这种对称性本身就是模型真正依赖上下文内容的有力证据。

第二个实验是测试一个没有经过ICWM训练的普通行为克隆模型,看它在给定同样的探测片段时能不能也受益。结果是成功率直接崩到接近零——这证明上下文世界建模的能力不是自然涌现的,必须在训练阶段就显式地引入才能获得。

第三个实验是对模型内部的表示进行可视化分析(使用t-SNE降维技术)。研究团队发现,同一视角下的不同探测上下文在模型内部会形成紧密的聚类,而不同视角之间的聚类分得很开。这说明模型确实为不同的系统配置建立了不同的内部表示,而且这些表示是稳定且可区分的。

说到底,ICWM做的事情并不神秘,但它的聪明之处在于把一个本来需要大量额外工程设计的问题,用一个极其简洁的思路解决了:与其告诉机器人"你现在处于什么配置",不如让它在开始工作之前自己去感受一下。这个思路在人类和动物的运动控制中早就存在,只不过以前没人想到把它系统地引入到机器人学习框架里。

实际上,这项研究的意义远不止于帮助机器人适应新摄像头。它所提出的"在正式执行任务前先做任务无关的自主探索"这一框架,可能对整个机器人泛化能力的研究方向都有参考价值。机器人的部署场景千变万化——不同工厂的照明条件不同、不同型号的机器臂有不同的运动特性、不同季节的户外环境差异巨大——任何一个单一的"系统配置"都无法在训练阶段被完全覆盖。ICWM提供的这种"到了新地方先摸摸底再干活"的机制,为解决这类泛化问题提供了一条代价极低的路径。

当然,这项研究也有其局限。目前的实验主要集中在摄像头视角和机械臂形态这两类变化,对于更复杂的场景——比如物体光照条件的剧烈变化、任务本身的根本性变化——是否同样有效,还需要更多验证。训练数据的多样性同样是制约因素:在语义场景变化实验中效果相对有限,部分原因就在于训练数据中场景多样性不足。此外,探测阶段需要机器人在工作区域内自由移动,在高度危险或空间极度受限的环境中可能需要额外的安全设计。

归根结底,这项研究告诉我们一个朴素的道理:到了新环境,先别急着干活,花几秒钟熟悉一下周围的情况,往往能让后续工作事半功倍。这个道理人人都懂,但让机器人也懂,并且用严格的数学和实验来证明它切实有效,才是这篇论文真正的贡献所在。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2606.26025查阅原文。

Q&A

Q1:ICWM和普通的多视角训练有什么区别,为什么多视角训练不够用?

A:普通多视角训练是把各种摄像头角度的数据都塞进训练集,希望模型见多识广。但问题是,测试时遇到的新角度永远不会完全出现在训练集里,模型没有办法在推理时主动调整自己。ICWM的不同在于,它给了模型一个在每次部署时"现场感受当前视角"的机会,通过任务前的随机探测动作,让模型实时理解当前的观测-动作对应关系,而不是依赖训练时见过的角度。

Q2:ICWM的探测阶段会不会碰到任务中的物品,破坏任务的初始状态?

A:研究团队在设计探测阶段时专门考虑了这个问题。探测时的随机目标点是在机器人安全工作区域内采样的,并且明确排除了任务相关物品所在的区域,确保探测过程不会干扰任务的初始摆放状态。机器人也不需要真正到达探测目标点,只需要朝那个方向移动几步,产生足够的视觉-动作对应信息即可。

Q3:ICWM需要重新训练现有的机器人模型吗,还是可以直接加在已有模型上?

A:ICWM需要在训练阶段就引入探测上下文的机制,不能直接叠加在未经该方式训练的模型上。研究团队的一个关键发现是,把探测片段喂给一个普通行为克隆训练的模型,其成功率会直接崩溃到接近零,说明这种上下文利用能力必须通过专门的训练方式才能获得,无法靠推理时的技巧来弥补。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真正聪明的人,不一定很会争,但一定很擅长躲:躲麻烦、躲是非、躲烂人烂事

真正聪明的人,不一定很会争,但一定很擅长躲:躲麻烦、躲是非、躲烂人烂事

心理观察局
2026-06-26 07:15:11
日本赢不了巴西,问题不出在技术,出在最后5分钟

日本赢不了巴西,问题不出在技术,出在最后5分钟

乐乐哥
2026-06-30 13:24:51
Shams:詹姆斯婉拒湖人续约意向正式离开,连续效力8年为生涯最长

Shams:詹姆斯婉拒湖人续约意向正式离开,连续效力8年为生涯最长

新杀猪的秀才
2026-07-01 00:29:42
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
佛得角的世界杯奇迹:无职业联赛、足协只有8人、领英招聘球员

佛得角的世界杯奇迹:无职业联赛、足协只有8人、领英招聘球员

小彭美识
2026-06-16 04:08:26
因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

糊咖娱乐
2026-06-30 18:28:42
华为2款新机曝光:7月份,即将发布

华为2款新机曝光:7月份,即将发布

科技堡垒
2026-06-29 09:15:32
原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

叹为观止易
2026-06-28 05:42:57
金靖老公罕见露面,气质干净素颜帅到爆,网友:性格差距是真大

金靖老公罕见露面,气质干净素颜帅到爆,网友:性格差距是真大

铁锤妹妹是只猫
2026-06-30 23:32:39
看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

快看张同学
2026-06-30 19:26:16
4年2400万美金!尼克斯第2笔签约达成!冠军中锋成抢手货

4年2400万美金!尼克斯第2笔签约达成!冠军中锋成抢手货

世界体育圈
2026-06-30 16:51:23
师徒情深!姆巴佩破门后第一时间跑到场边和主帅德尚激情相拥

师徒情深!姆巴佩破门后第一时间跑到场边和主帅德尚激情相拥

砚底沉香
2026-07-01 05:58:03
日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

扬子晚报
2026-06-30 09:54:05
最强阵容!中国女排香港站过招意大利,赵勇或效仿郎平一石二鸟

最强阵容!中国女排香港站过招意大利,赵勇或效仿郎平一石二鸟

骑马寺的少年
2026-06-30 22:11:17
警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

项鹏飞
2026-06-28 21:41:22
战局逆转!看完俄乌战场的3大信号,可以负责任地说:俄罗斯悬了

战局逆转!看完俄乌战场的3大信号,可以负责任地说:俄罗斯悬了

勇士军武闲谈
2026-06-29 16:05:00
国泰海通总裁李俊杰,将任上海市级机关正职

国泰海通总裁李俊杰,将任上海市级机关正职

南方都市报
2026-06-30 19:04:17
罗永浩力挺韩红基金会:质疑基金会买苹果电脑都是傻x

罗永浩力挺韩红基金会:质疑基金会买苹果电脑都是傻x

三言科技
2026-07-01 08:20:07
CBA3消息!状元加盟玄鸟,石奎退出CBA选秀,区俊炫加盟香港金牛

CBA3消息!状元加盟玄鸟,石奎退出CBA选秀,区俊炫加盟香港金牛

烨侃体育
2026-07-01 06:21:49
这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

哄动一时啊
2026-06-24 14:26:23
2026-07-01 09:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8987文章数 565关注度
往期回顾 全部

科技要闻

苹果刚涨价!预付款消费者就被要求补差价

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

中东局势再添变数

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
手机
本地
数码
公开课

Meiinpsn的穿衣风格,清新又叛逆

手机要闻

爱马仕橙退场!iPhone 18 Pro红色款偷跑:年度爆款色预定

本地新闻

贵州小城的新目标:举办“村超”世界杯!

数码要闻

华为夺拍摄眼镜市场第一 超越千问、小米

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版