复旦大学团队让机器人学会"先摸摸底再动手"|移动|实验|数学|上下文

分享至

这项由复旦大学、上海创新研究院和同济大学联合开展的研究，于2026年6月发表在arXiv预印本平台，论文编号为arXiv:2606.26025。研究的核心问题是：当一台机器人被换了个新角度的摄像头，它还能正常干活吗？答案令人遗憾——通常不能。而这篇论文提出的方法，正是为了解决这个令机器人工程师头疼已久的问题。

一、机器人换个角度就"失忆"了，这事有多麻烦

把一台经过精心训练的机器人从正面摄像头换成侧面摄像头，它的表现往往会急剧下降，就像一个从小在上海长大的孩子突然被要求用粤语做数学题——知识还在，但输入的格式变了，整个系统就乱了套。

这背后的原因其实很好理解。现代机器人依赖的是一种叫做"视觉-语言-行动模型"（Vision-Language-Action Model，简称VLA）的系统。这类系统的工作方式是：给它看一张当前环境的照片，再告诉它一句话指令（比如"把红色杯子放到蓝色盘子上"），它就输出一系列动作。问题在于，这个系统在训练时默默记住了摄像头的位置、角度这些"背景条件"，它把这些条件当成了永远不变的事实。一旦摄像头换了位置，它看到的世界就像从不同角度看同一张桌子——明明是同一个东西，但视觉上差别极大，机器人就会判断错误，抓空、偏移、失败。

研究团队把这个问题称为"系统配置"（system configuration）的缺失。机器人不知道自己当前处于什么样的视角、什么样的物理设置下，所以无法做出正确的调整。传统的解决方法是重新收集新视角的数据，再花大量时间重新训练模型——这不仅费时费钱，而且每换一个新环境都要重复一遍，根本不现实。

正是在这个背景下，复旦大学的研究团队提出了一个截然不同的思路，他们把这个方法叫做"上下文世界建模"（In-Context World Modeling，简称ICWM）。

二、人类是怎么适应新环境的——灵感来自一个生活场景

研究团队的灵感来自一个非常日常的场景：你第一次拿到一个陌生的游戏手柄或者遥控器，根本不知道哪个键对应什么功能。你不会呆呆地等人教你，而是会随机按几下，看看屏幕上发生了什么，然后根据反应推测出按键与结果的对应关系。几秒钟之内，你就建立起了一套对这个"系统"的基本理解，然后才开始认真操作。

机器人能不能也这样做？在真正开始执行任务之前，先随机动几下，观察摄像头拍到的画面变化，从而推断出"我现在处于什么样的视角"？这就是ICWM的核心思路。

研究团队把这个"随机动几下、看看发生什么"的过程叫做"主动探测"（Active Probing）。机器人在正式开始任务之前，会在安全的工作区域内随机移动几次机械臂，记录下每次移动前后的画面，以及自己执行了什么动作。这些"动作-画面变化"的片段，就像是机器人给自己做的一份快速"环境摸底报告"。

关键在于，这份报告不需要包含任何任务相关的信息。机器人不需要先试着抓一次目标物体，也不需要人类帮它演示一遍任务。它只需要在工作区域里随机晃几下，就能获得足够的信息来理解当前的视角和物理配置。

三、"摸底报告"怎么被利用——模型的训练和推理机制

要让机器人学会利用这份"摸底报告"，需要在训练阶段就把这个机制内置进去。

训练时，研究团队为每一个训练样本都额外准备了若干段随机运动的片段。这些片段来自各种不同视角下的机器人探索过程，内容完全与具体任务无关。模型在学习如何完成任务的同时，也在学习如何从这些随机运动片段中提取"当前系统是什么样的"这一信息。

用一个比喻来说：这就像一个厨师不仅要学做菜，还要学会在进入陌生厨房后，先拉开几个抽屉、开关几个炉灶，感受一下这个厨房的布局和设备特性，然后再正式开始烹饪。训练时就让厨师反复练习这套"先摸底再做菜"的流程，等到真正上场时，他就知道该怎么应对不熟悉的厨房了。

在技术实现上，ICWM没有为这个"摸底"功能额外设计一套新的模块或参数。取而代之的是，它让原有的模型骨架（一个叫做Qwen2.5-VL-3B的视觉语言模型）同时承担两个任务：一是理解当前的系统配置，二是生成任务动作。这两件事共享同一套参数，因为研究团队认为这两件事在本质上需要相同的能力——都需要理解"看到的画面"和"做出的动作"之间的对应关系。

推理（也就是实际使用）时，流程分为两个阶段。第一阶段，机器人在正式任务开始前执行若干次随机探测动作，记录下每次动作对应的前后画面，形成一个"探测上下文"。第二阶段，机器人把这些探测片段作为"前情提要"输入模型，模型先处理这些片段，建立起对当前系统配置的隐式理解，然后再接收任务指令和当前观测画面，生成精准的任务动作。整个过程不需要更新任何参数，也不需要人类提供任何演示，机器人完全自主完成。

四、实验结果——数字背后的实际意义

研究团队在两个层面上验证了ICWM的效果：一是仿真环境，二是真实机器人平台。

在仿真环境中，他们使用了一个叫做LIBERO的标准机器人学习基准测试平台，这个平台包含四类任务：需要理解空间位置关系的任务、需要根据指令选择不同目标的任务、需要识别各种物体的任务，以及需要连续完成多个步骤的长程任务。训练时使用8个不同方向的摄像头角度，测试时使用6个从未出现过的新角度。

在面对这些从未见过的新视角时，ICWM相比于普通的多视角训练基线（即同样接受了多视角训练数据但没有探测机制的模型）平均成功率提升了13%。如果拿去和明确告诉模型"当前摄像头角度是多少度"的版本相比，ICWM依然高出9.5%——这说明仅仅知道角度数字是不够的，真正有用的是亲身"感受"过当前视角下的运动反馈。

特别值得注意的是长程任务的表现。在需要连续执行多个步骤的任务上，ICWM相比普通多视角训练的提升幅度最大，在已见视角上高出29.9%，在新视角上高出26.3%。这背后的逻辑是：长程任务中，每一步的微小偏差都会在后续步骤中累积放大，视角带来的误差在早期步骤中如果没有被纠正，到后面就会演变成彻底的失败。而ICWM通过对当前视角的正确理解，从一开始就减少了这种误差，防止了错误的级联扩散。

在真实机器人平台上，研究团队使用了一台UR5e机械臂，配备12个摄像头，其中6个用于训练，6个作为测试时的新视角。测试任务包括叠杯子、抬篮子、抓取物品放置等四类。结果显示，当摄像头从训练视角切换到测试视角时，普通多视角训练模型的成功率从68%直接跌到17%，而ICWM的加入大幅缓解了这种下滑。在抓取任务上，ICWM比普通基线高出90%；在叠杯任务上更是高出175%。

研究团队还通过视频记录展示了具体的失败模式。没有ICWM的机器人在新视角下会出现末端执行器的位置偏移（抓的位置不准）和过早关闭夹爪（还没抓到就夹上了）这两类典型错误，而加入ICWM后这两类错误都得到了明显改善。

五、为什么这个方法有效——有没有理论支撑

研究团队不满足于仅仅展示实验数据，他们还从信息论的角度论证了为什么"先随机动几下"能帮助机器人理解当前的系统配置。

核心论点是这样的：从单张画面中，你很难准确判断摄像头装在哪个位置、角度是多少。但如果你同时知道"我往左移动了多少，画面中的机械臂往哪个方向移动了多少"，这个信息就丰富得多。研究团队用严格的数学证明表明，"一系列动作加上对应的画面变化"包含的关于系统配置的信息，一定严格多于单张画面。而且这个结论对任何类型的动作序列都成立，包括完全随机的、与任务无关的动作——这从理论上为"随机探测也有效"提供了保证。

六、探测方式重要吗——一个实用性问题的解答

既然要在任务前随机动几下，那么动的方式有没有讲究？研究团队测试了四种不同的探测策略：完全随机方向、只在水平面内移动、只沿垂直方向移动、只改变末端执行器的朝向。

结果发现，这四种策略的表现差异不大，但都比不做任何探测要好15%到27%。这意味着ICWM的收益主要来自"有探测"这件事本身，而不是探测动作的具体设计。这对实际部署来说是个好消息——不需要精心设计探测路径，随机动几下就能获得大部分收益。不同策略之间的细微差异表明，不同方向的运动会暴露系统配置的不同侧面，没有哪一种能覆盖所有情况，但任何一种都能带来显著帮助。

七、ICWM能不能应对视角以外的变化

研究团队还测试了ICWM在两类非摄像头变化情况下的表现，以验证这个方法是否有更广泛的适用性。

第一类是场景语义变化，包括在工作台上摆放与任务无关的干扰物品，以及把桌面换成训练时从未出现过的新材质。在这两种情况下，ICWM相比普通基线依然保持了一定的优势，不过提升幅度比视角变化时要小。研究团队认为这主要是因为训练数据中场景多样性不够充分，而非方法本身的局限。

第二类是机器人形态变化。他们在机械臂的夹爪法兰上安装了不同长度的刚性垫片（20毫米、40毫米、80毫米），从而改变了机械臂实际的运动学参数——也就是说，同样的控制指令现在会产生略微不同的实际位移。面对这种变化，普通基线模型成功率大幅下降，而ICWM通过探测阶段感受到的运动反馈，能够隐式推断出当前夹爪的有效长度，从而保持了更稳定的表现。

为了进一步验证这一点，研究团队还在另一款叫做WindowX的机器人平台上做了测试。他们把机器人的连杆长度分别缩短到原始长度的90%和80%（训练时只用了100%和70%两个极端情况），测试模型对从未见过的中间状态的泛化能力。随着连杆缩短幅度增大，普通基线的成功率从57%腰斩到28%，而ICWM从77%相对温和地降到62%，两者之间的差距反而随着形态变化的增大而扩大——变化越大，ICWM的优势越明显。

八、计算开销——这个方法实用吗

探测阶段需要额外的计算，那么它会不会让机器人反应变慢？研究团队在一张NVIDIA RTX 4090显卡上测量了推理延迟。不加任何上下文时，每步推理需要0.112秒；加入3段探测片段后变为0.165秒；加入5段时变为0.185秒。对于机器人操控任务来说，这个延迟是完全可以接受的，不会影响控制循环的稳定性。

更重要的是，由于探测上下文在整个任务执行过程中是固定不变的（只要摄像头没动），可以用一种叫做"KV缓存"的技术把上下文的中间计算结果存起来，后续每一步推理直接复用，把额外的计算开销降回到接近零基线的水平。探测阶段本身（20次随机动作）在真实机器人上只需要5到6秒，且整个任务执行期间只做一次，代价极小。

九、模型真的在"理解"视角，还是只是记住了图案

研究团队做了几个有说服力的实验来检验ICWM是否真的在做系统识别，而不只是在做表面的模式匹配。

第一个实验是把真实的探测上下文换成来自180度偏转视角的错误探测上下文（"假上下文"）。如果模型只是在忽略上下文、靠自己猜，那么假上下文不应该有什么影响。但结果是，假上下文的表现（平均成功率18.9%）比完全不提供任何上下文（22.0%）还要差。这说明错误的上下文会主动误导模型，而不是被忽视——这意味着模型确实在认真参考上下文内容。正确上下文带来的提升（+13.6%）与错误上下文带来的下降（-12.0%）在量级上高度对称，这种对称性本身就是模型真正依赖上下文内容的有力证据。

第二个实验是测试一个没有经过ICWM训练的普通行为克隆模型，看它在给定同样的探测片段时能不能也受益。结果是成功率直接崩到接近零——这证明上下文世界建模的能力不是自然涌现的，必须在训练阶段就显式地引入才能获得。

第三个实验是对模型内部的表示进行可视化分析（使用t-SNE降维技术）。研究团队发现，同一视角下的不同探测上下文在模型内部会形成紧密的聚类，而不同视角之间的聚类分得很开。这说明模型确实为不同的系统配置建立了不同的内部表示，而且这些表示是稳定且可区分的。

说到底，ICWM做的事情并不神秘，但它的聪明之处在于把一个本来需要大量额外工程设计的问题，用一个极其简洁的思路解决了：与其告诉机器人"你现在处于什么配置"，不如让它在开始工作之前自己去感受一下。这个思路在人类和动物的运动控制中早就存在，只不过以前没人想到把它系统地引入到机器人学习框架里。

实际上，这项研究的意义远不止于帮助机器人适应新摄像头。它所提出的"在正式执行任务前先做任务无关的自主探索"这一框架，可能对整个机器人泛化能力的研究方向都有参考价值。机器人的部署场景千变万化——不同工厂的照明条件不同、不同型号的机器臂有不同的运动特性、不同季节的户外环境差异巨大——任何一个单一的"系统配置"都无法在训练阶段被完全覆盖。ICWM提供的这种"到了新地方先摸摸底再干活"的机制，为解决这类泛化问题提供了一条代价极低的路径。

当然，这项研究也有其局限。目前的实验主要集中在摄像头视角和机械臂形态这两类变化，对于更复杂的场景——比如物体光照条件的剧烈变化、任务本身的根本性变化——是否同样有效，还需要更多验证。训练数据的多样性同样是制约因素：在语义场景变化实验中效果相对有限，部分原因就在于训练数据中场景多样性不足。此外，探测阶段需要机器人在工作区域内自由移动，在高度危险或空间极度受限的环境中可能需要额外的安全设计。

归根结底，这项研究告诉我们一个朴素的道理：到了新环境，先别急着干活，花几秒钟熟悉一下周围的情况，往往能让后续工作事半功倍。这个道理人人都懂，但让机器人也懂，并且用严格的数学和实验来证明它切实有效，才是这篇论文真正的贡献所在。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2606.26025查阅原文。

Q&A

Q1：ICWM和普通的多视角训练有什么区别，为什么多视角训练不够用？

A：普通多视角训练是把各种摄像头角度的数据都塞进训练集，希望模型见多识广。但问题是，测试时遇到的新角度永远不会完全出现在训练集里，模型没有办法在推理时主动调整自己。ICWM的不同在于，它给了模型一个在每次部署时"现场感受当前视角"的机会，通过任务前的随机探测动作，让模型实时理解当前的观测-动作对应关系，而不是依赖训练时见过的角度。

Q2：ICWM的探测阶段会不会碰到任务中的物品，破坏任务的初始状态？

A：研究团队在设计探测阶段时专门考虑了这个问题。探测时的随机目标点是在机器人安全工作区域内采样的，并且明确排除了任务相关物品所在的区域，确保探测过程不会干扰任务的初始摆放状态。机器人也不需要真正到达探测目标点，只需要朝那个方向移动几步，产生足够的视觉-动作对应信息即可。

Q3：ICWM需要重新训练现有的机器人模型吗，还是可以直接加在已有模型上？

A：ICWM需要在训练阶段就引入探测上下文的机制，不能直接叠加在未经该方式训练的模型上。研究团队的一个关键发现是，把探测片段喂给一个普通行为克隆训练的模型，其成功率会直接崩溃到接近零，说明这种上下文利用能力必须通过专门的训练方式才能获得，无法靠推理时的技巧来弥补。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.