上海交大、复旦与清华联手：打造人性化智能机器人，让其“先思后行”|动作|实验|真实世界|视障人士

分享至

这项由上海交通大学、复旦大学、清华大学、东方理工（宁波）及上海创新研究院联合完成的研究，发表于2026年国际学习表征大会（ICLR 2026），论文编号为arXiv:2604.16391。

教一个孩子学骑自行车，你会怎么做？多数人的直觉是拆开两件事来练：先让孩子坐在车上感受平衡和重心，再单独练习蹬踏和转向。把这两件事分开练熟了，再合在一起骑，往往比从一开始就强行同时教要有效得多。这项研究的核心思路，跟这个生活经验惊人地相似——只不过他们教的不是孩子骑车，而是教机器人用手操控物体。

机器人学习领域近年来出现了一类叫做"视觉-语言-动作模型"（VLA）的技术。通俗地说，这类模型就是试图让机器人同时看懂画面、理解人类指令、并据此决定下一步怎么动手。这听起来很厉害，实际上也确实取得了不少进展。但这类模型长期以来有一个根本性的矛盾，就像一个人被要求同时用左手画圆、右手画方——两件事的底层逻辑并不兼容，强行合并会让两边都学得不够好。

画面预测和动作生成，这两件事为什么不兼容？预测画面是一件发生在二维屏幕上的事，而机器人的动作却是真实三维空间里的力和位移。一个是在想象"接下来的世界会是什么样子"，另一个是在计算"我的手臂要往哪个方向移动多少厘米"。把这两个目标塞进同一个训练过程，它们会互相拖后腿，导致训练不稳定，最终两件事都没做好。

更麻烦的是，现有大量可用的学习素材——互联网上海量的人类操作视频，比如做饭、整理物品、组装玩具——都没有附带机器人动作数据。这些视频里根本没有"机器人手臂在哪、朝哪里动了多少"的标注，所以传统的合并训练方式完全无法利用这些宝贵的素材。这就相当于一个想学厨艺的人，面对图书馆里堆积如山的烹饪视频，却因为没有配套的量杯刻度表，就完全不知道如何下手学习——而DeFI框架的提出，正是为了解决这个困境。

一、两件事分开练：DeFI框架的核心设计理念

研究团队把他们的方法命名为DeFI，三个字母分别代表"解耦（Decouple）"、"前向（Forward）"和"逆向（Inverse）"动态学习。这个名字精确描述了他们的核心策略：把机器人学习这件大事拆成两个独立的专项训练，各自找最合适的数据来学，最后再合体执行任务。

前向动态模型（GFDM）负责的事情，是"看懂世界会怎么变化"。给它一张当前的场景图和一条语言指令，比如"把红色积木放进抽屉"，它要预测接下来一小段时间里，画面会如何演变。这件事不需要知道机器人手臂具体怎么动，只需要理解物理世界的运作规律——哪些动作会让物体移动，什么样的操作会改变场景状态。这类知识在大量的人类视频里随处可见，因此研究团队把这个模型放在海量的人类日常操作视频和机器人演示视频上一起训练。

逆向动态模型（GIDM）负责的事情，则正好相反：它不是预测未来，而是从"发生了什么变化"反推"中间经历了什么动作"。给它看两张相隔一秒左右的画面——一张是操作前，一张是操作后——它要推断出中间到底发生了什么样的运动。这件事同样可以从人类视频中学习，因为人手和机器人手臂在物理层面遵循相似的运动规律。

两个模型分别在各自最擅长的数据上充分预训练，这就是"分开练"。等两者都具备了扎实的基础能力，再把它们合并到一个统一框架里进行精细调整，让它们协同合作完成最终的机器人控制任务——这就是"合体执行"。这个设计的精妙之处在于，分开训练阶段可以充分利用海量的无动作标注视频，合体阶段只需要相对少量的带动作标注的机器人演示数据，就能取得很好的效果。

二、前向动态模型的具体工作方式

前向动态模型（GFDM）的基础，是一个叫做"稳定视频扩散"（SVD）的视频生成模型。扩散模型的工作原理，用一个比喻来说，就像是一个极其有耐心的雕塑家——他先把一块完美的雕塑逐渐涂满泥土、直到完全看不出原来的样子，然后反复学习如何一层一层把泥土剥掉还原回去。训练时，模型学习如何从噪声中恢复清晰的画面；推断时，它从一团随机噪声出发，一步一步生成预测的未来帧。

不过，完整地生成一段清晰视频其实是一件很昂贵的事——它需要大量计算，而且生成出来的精美画面里，大多数像素其实对机器人控制没什么用。机器人真正需要的是"这里有什么在动、往哪个方向动"，而不是"这块木板的纹理是什么颜色"。

研究团队发现，其实只做一步去噪就够了。完整的扩散过程通常需要几十步去噪迭代，而实验表明，仅仅经过一步去噪得到的"半成品"潜在特征，已经包含了足够丰富的运动信息来指导后续的动作推断。这个发现大幅降低了计算开销——单步去噪大约只需要86毫秒，比完整生成快得多，而操作任务的成功率并没有因此下降。

在GFDM的预训练数据上，研究团队混合了四类来源：机器人领域的Fractal数据集（占30%）、Bridge机器人数据集（占10%）、CALVIN机器人操作数据集（占30%），以及人类视频中的Something-Something-v2（占15%）和Ego4D第一视角日常活动数据集（占15%）。人类视频和机器人视频各占一半，这个混合比例经过仔细设计，目的是让模型既能理解机器人的操作场景，又能从人类丰富的动作经验中汲取更广泛的物理世界知识。

三、逆向动态模型的训练秘密

逆向动态模型（GIDM）的训练方式更为巧妙，因为它面临一个根本性的挑战：如果没有标注好的动作数据，模型怎么知道自己有没有学对？

研究团队设计了一个自监督的代理任务来解决这个问题。所谓自监督，就是数据自己给自己出题、自己评分，不需要人工标注答案。具体做法是：给模型看两帧间隔约一秒的视频画面，让它推断出中间发生了什么"潜在动作"。然后，模型需要用这个推断出的潜在动作，配合起始帧，去重新预测结束帧长什么样。如果预测的结束帧跟真实的结束帧接近，说明模型推断出的潜在动作是有意义的；反之则说明没学好。

这个设计还有一个精妙的防作弊机制。如果不加任何限制，模型可能会走捷径——直接把结束帧的视觉细节"暗藏"在潜在动作里偷带出去，而不是真正学习动作语义。为了堵住这个漏洞，研究团队在潜在动作的表示上加了一个"信息瓶颈"：用VQ-VAE技术把连续的潜在动作量化成一个有限词汇表里的离散符号，就像把连续的音乐旋律转成有限的音符。词汇表大小只有128个条目，根本不够存储详细的视觉信息，却足以表达有意义的动作类型。这个量化步骤迫使模型只能学习真正有价值的运动模式，而不能走捷径。

从技术架构上看，GIDM的核心是一个带有因果时序遮掩的空间-时序Transformer，外加一套可学习的动作查询向量。模型把当前帧和未来帧的DINOv2视觉特征，连同T5文本编码器提取的指令嵌入，一起输入这个Transformer，输出潜在动作特征，再经过VQ-VAE量化，最后由解码器尝试重建未来帧的视觉特征。训练完成后，解码器在后续使用阶段会被丢弃，只保留编码器和量化模块。

GIDM的预训练数据主要来自Open X-Embodiment机器人数据集（涵盖Fractal、Kuka、Bridge等二十余个子集）以及Ego4D人类第一视角视频，其中人类视频占约3.5%，其余均为机器人数据。尽管比例较小，但后续消融实验证明这部分人类数据带来了实质性的提升。

四、合体之后：两个模型如何协同工作

完成分别预训练之后，GFDM和GIDM进入合体精调阶段。这个阶段的关键设计决策之一，是把GFDM完全冻结——也就是说，精调时不更新它的参数。这个选择背后有一个重要原因：GFDM在大规模数据上积累的物理世界理解，是一种非常宝贵的通用先验知识，如果在相对有限的下游任务数据上继续训练，很可能会把这些通用知识"遗忘"掉，导致泛化能力下降。

被冻结的GFDM扮演的角色，是一个稳定的"世界想象者"。它接收当前观测和语言指令，通过单步去噪生成未来16帧的潜在特征，这些特征捕捉了预期中的场景变化。随后，一个轻量级的MLP（多层感知机，一种简单的神经网络）负责把这些潜在特征映射到GIDM能理解的表示空间，就像一个翻译员把一种语言转成另一种语言，确保两个模型之间的表示兼容。

与此同时，研究团队还引入了一个"视频前向器"（video former）模块，从GFDM的中间层提取更丰富的时空特征。这些中间层特征往往比最终输出特征包含更多细节信息，类似于从厨师制作料理的过程中观察每个步骤，而不仅仅看最终的成品。这些特征与MLP投影后的特征融合，一起送入GIDM进行潜在动作推断。

最后，推断出的潜在动作被送进一个基于扩散Transformer架构的动作适配器，这个模块负责把抽象的潜在动作解码成机器人真正能执行的具体控制指令——比如每个关节的角度变化量，以及夹爪的开合状态，共7个维度的连续值。这个动作适配器从一个3000万参数的DiT-B模型初始化，在精调阶段与GIDM一起更新参数。

整个推断链条的延迟表现也经过了测量：GFDM单步去噪需要约86毫秒，GIDM推断约43毫秒，动作适配器约24毫秒，三者合计约153毫秒，在工业级RTX 4090显卡上运行。这个速度虽然不算极快，但对于大多数桌面操作任务而言是可以接受的。

五、实验结果：数字背后的故事

研究团队在三个层面上验证了DeFI的效果，从模拟环境到真实机器人，形成了由浅入深的完整评估链条。

在CALVIN ABC-D基准测试上，这是机器人操作领域最具挑战性的长程任务评测平台之一。测试要求机器人在从未见过的新环境D中，连续完成5个不同的语言指令任务（比如"把红色积木推到左边"、"拿起并举起红色积木"、"把抓住的积木放进抽屉"等）。评价指标是平均连续完成任务数，满分为5。

DeFI在多视角设置下取得了4.51的平均任务长度，这意味着平均每次尝试能完成超过四个半任务。相比之下，此前的最强基线VPP只有4.33，Seer只有4.28，OpenVLA只有3.27，而π0（一个使用流匹配的先进VLA模型）只有3.84。如果只用单个静止视角，DeFI也达到了4.05，超过了UniVLA（3.80）、CLOVER（3.53）和SuSIE（2.69）等竞争对手。

在SimplerEnv-Fractal基准测试上，这个基准使用谷歌机器人平台，评估"抓取可乐罐"、"移动到指定位置"、"开关抽屉"三类任务。DeFI在视觉匹配设置下的平均成功率达到51.2%，远超OpenVLA的27.7%和TraceVLA的42.0%。在变体聚合设置下达到45.4%，同样领先。值得注意的是，在"开关抽屉"这项任务上DeFI表现相对欠佳，研究团队分析原因是GFDM在Fractal真实数据上预训练且被冻结，导致其只能生成真实风格的预测画面，与SimplerEnv的仿真场景存在一定的领域偏差，这种偏差经由GIDM传导，影响了动作质量。

在真实世界的Franka机械臂实验中，研究团队收集了8种任务的1600条真实演示数据。这8种任务涵盖了从相对简单的"把面包放到盘子上"、"开关微波炉"，到中等难度的"切面包"、"堆叠碗/瓶子/积木"，再到较有挑战性的"倒水"。每次试验最多允许20次连续尝试，判断成功与否的标准是是否在规定次数内完成抓取和放置。

DeFI的整体平均成功率达到81.3%，而此前最好的基线OpenVLA只有43.8%，Diffusion Policy达到48.2%，Octo-Base只有34.4%。在最困难的"倒水"任务上，DeFI达到75%的成功率，而其他三种方法分别只有35%、20%和45%。在相对简单的"关闭微波炉"任务上，DeFI甚至达到了100%的成功率。

六、数据效率：少量标注数据也够用

机器人演示数据的收集是一件既费时又费钱的事，每条数据都需要人工操控，标注成本极高。DeFI在数据效率上的表现，是它另一个实际价值所在。

研究团队用CALVIN ABC-D数据集的不同比例（10%、20%、50%、100%）来精调DeFI和VPP，比较在有限数据下的表现。当只使用10%的数据时，DeFI的平均任务长度相比VPP提升了约18%，说明充分的预训练让模型在数据极度匮乏的情况下也能快速上手。更有意思的发现是，DeFI只需要约60%的训练数据，就能超过VPP用100%数据时的表现。换句话说，充分的预训练让机器人的"学习天赋"提高了，同样的演示数据能教出更有能力的机器人，或者说同等能力的机器人需要更少的演示。

七、人类视频究竟贡献了多少？

一个自然会有的疑问是：大费周章地把人类视频纳入训练，真的值得吗？毕竟机器人的手臂和人类的手在形状、尺寸上差别挺大。

消融实验给出了清晰的答案。完全不使用人类视频时，平均任务长度只有3.92；仅在GFDM中加入人类视频，提升到4.19；仅在GIDM中加入人类视频，提升到4.34；两者都用人类视频，最终达到4.51。这意味着人类视频对两个模块都有正面贡献，对GFDM的帮助（+0.32）甚至略大于对GIDM的帮助（+0.17）。

研究团队还测量了人类视频数据量与性能之间的关系，发现随着人类视频比例从0增加到100%，性能持续提升，从3.92稳步爬升到4.51，没有出现明显的饱和迹象。这说明如果有更多的人类视频，性能还有进一步提升的空间，整个框架具有良好的可扩展性。

注意力热力图的可视化结果也印证了这一点：GIDM在处理机器人视频时，注意力集中在机器人手臂区域；处理人类视频时，注意力集中在人类手臂区域。这说明模型确实学会了识别"行动主体"的概念，而不是依赖场景背景或无关的视觉细节。

八、各设计选择的细节验证

研究团队进行了非常细致的消融实验，逐一验证框架中的每个设计决策。

关于预训练的必要性：当GFDM没有经过预训练（从随机初始化开始），性能大幅跌至3.28，虽然优于很多基线，但明显弱于有预训练的4.51。当GIDM没有经过预训练，性能为4.16，低于完整框架的4.51。两者都有预训练时达到最佳。这证明了分别预训练的价值，也说明GIDM的预训练同样关键，不能只注重GFDM的预训练。

关于去噪步数的影响：使用5步去噪的性能（4.45）略低于单步去噪（4.51），同时推断时间从约150毫秒增加到约250毫秒。这个反直觉的结果——更少的去噪反而更好——说明过多的像素细节对动作推断反而是干扰，而不是帮助。单步去噪提取的"模糊但抓住了运动本质"的特征，对GIDM来说反而更有用。

关于将SVD换成DINO特征生成器：性能大幅下降到3.70，说明SVD预训练的大规模视频生成能力对GFDM的物理世界理解至关重要，不能随意替换。

关于GIDM的架构选择：简单的MLP只有3.42，普通Transformer达到4.22，带VQ-VAE的因果Transformer（也就是当前设计）达到4.51。MLP的信息容量不足以捕捉复杂的时序动作模式；普通Transformer虽然表达能力更强，但没有量化约束，容易累积误差；VQ-VAE量化既提供了信息瓶颈（防止走捷径），又提供了结构化的离散表示（有利于后续动作生成），两方面共同发挥了作用。

关于量化方式的对比：研究团队还比较了高斯混合模型（4.12）、简单分箱（3.98）、连续潜在动作（4.20）与VQ-VAE（4.51）四种量化策略。VQ-VAE的优势不仅在于离散化，还在于它额外起到了信息瓶颈的作用，防止了"未来帧信息泄露"的捷径问题，这是其他量化方式所缺乏的。

关于精调时冻结哪些模块：只训练动作适配器（4.33）、同时训练GFDM和适配器（4.35）、同时训练GIDM和适配器（4.51）、三者全训练（4.40）。最优方案是冻结GFDM、同时精调GIDM和适配器。全部解冻反而比部分冻结差，原因是GFDM参数更新会导致它的输出分布持续漂移，使得GIDM要不断追赶一个移动的目标，学习变得困难。冻结GFDM为整个系统提供了稳定的基础。

九、失败案例分析：哪里还有提升空间

研究团队分析了200个失败案例，发现可以分为两大类，比例大约是六比四。

前向动态失败占62%：主要发生在接触密集或场景杂乱的情况下，GFDM预测的未来帧可能出现"幻觉"或物理上不合理的内容，或者多视角之间的预测不一致，导致GIDM从错误的未来推断出错误的动作。这类失败说明长时序一致性和接触力建模仍然是当前世界模型的薄弱环节。

逆向动态失败占38%：即使GFDM的预测是准确的，GIDM有时仍然会生成错误的动作——比如抓错了物体、放置位置偏移、或者造成碰撞。这表明即使有了准确的未来预测，从预测到控制的映射本身也存在挑战，逆向动态推断的精度仍有提升空间。

研究团队指出，这两类失败比例大致反映了当前系统的两个主要瓶颈，也预示了未来工作的主要方向：更精确的接触物理建模，以及更鲁棒的动作推断算法。

归根结底，DeFI做的事情可以用一句话概括：把"看懂世界"和"决定动作"这两件事分开学、各自练到位，再合在一起相互配合。这个思路不复杂，但效果非常显著。从数字上看，它在最严苛的长程操作任务测试中比此前最好的方法高出约4%，在真实机器人上的平均成功率接近翻倍。

这项研究的意义，不仅仅在于又一次刷新了某个基准测试的分数。更深远的价值在于，它证明了互联网上海量的人类操作视频——做饭、整理、修理、组装——可以成为训练机器人的宝贵素材，而不需要为每段视频额外标注机器人动作数据。随着这类技术的成熟，机器人的学习可以越来越多地依赖现有的人类经验，而不是从零开始收集昂贵的专用数据。

当然，现有框架也有明显的局限。逆向动态推断失败率仍有38%，说明"从预测到控制"这道桥还没完全建好。长程任务中GFDM的幻觉问题，以及当训练数据和测试场景之间存在领域偏差时性能的下滑，都是值得持续改进的方向。研究团队也明确指出，将大语言模型引入框架以支持更丰富的语义理解、提升精细操作的鲁棒性、以及开发更轻量的推断架构，是他们计划中的下一步工作。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.16391查找完整论文。

Q&A

Q1：DeFI框架与传统VLA模型相比，核心区别是什么？

A：传统VLA模型把"预测未来画面"和"生成机器人动作"这两件事放在同一个模型里同时训练，导致两个目标互相干扰，也无法利用没有动作标注的人类视频。DeFI把这两件事分拆成前向动态模型和逆向动态模型，分别在各自最合适的数据上单独预训练，最后再合体精调。这样既充分利用了海量无标注人类视频，又保证了动作推断的准确性。

Q2：为什么DeFI在精调阶段要冻结前向动态模型GFDM的参数？

A：GFDM在大规模数据上预训练积累了丰富的物理世界理解能力，这是一种非常通用的先验知识。如果在相对有限的下游任务数据上继续训练，可能会"遗忘"这些通用知识，导致泛化能力下降。同时，如果GFDM的参数不断变化，它输出的特征分布也会持续漂移，GIDM就要不断追赶一个移动的目标，学习会变得很困难。冻结GFDM为整个系统提供了一个稳定的基础。

Q3：DeFI在SimplerEnv的抽屉开关任务上表现不如其他任务，原因是什么？

A：主要原因是领域偏差。GFDM是在真实世界的Fractal数据集上预训练的，并且在精调阶段被冻结，因此它只能生成真实风格的预测画面。而SimplerEnv是一个仿真环境，视觉风格与真实世界有明显差距。这种视觉不匹配通过GIDM传导到动作生成阶段，导致动作出现偏差。这也说明了领域迁移是当前视频预测驱动的机器人学习面临的一个共性挑战。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.