无需动作预训练，物理自回归模型让机器人“从视频学会操作”|轨迹|模态|运动学|深度思考模型

无需动作预训练，物理自回归模型让机器人“从视频学会操作”

2025-09-12 15:36:52　来源: AI科技评论

广东举报

分享至

不需要动作预训练，即可同时实现未来视频预测与一致的动作轨迹生成。

作者丨拓元智慧AI团队

该论文作者来自中山大学、拓元智慧AI实验室团队，项目负责人为王广润博士。王广润，国家级“四青人才”、拓元智慧首席科学家、中山大学计算机学院副教授、博士生导师、华为战略研究院人才基金获得者、前牛津大学研究员，主要研究方向包括新一代AI架构、大物理模型、多模态生成式AI等。

论文题目：Physical Autoregressive Model for Robotic Manipulation without Action Pretraining论文链接：https://arxiv.org/abs/2508.09822项目主页：https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日，由中山大学、拓元智慧AI实验室联合提出的全新“物理自回归模型（Physical Autoregressive Model，PAR）”打通了“预判未来视频帧—生成动作轨迹”的统一链路，将视觉帧与动作共同编码为“物理token”，在无需动作预训练的前提下即可学习物理世界的动态规律。基于ManiSkill基准，PAR 在PushCube任务上实现100%成功率，并在其余任务上与需要动作预训练的强基线表现相当，显示了从大规模视频预训练向机器人操控迁移的可行路径。

四大核心技术点：

全局记忆的自回归框架：构建从过去到现在的所有“观察-动作”历史，借鉴GPT等语言模型的工作模式，基于全部N个历史token预测下一步（N+1步）最合理的行动。
统一的“物理token”表征：将帧与动作拼接为一个序列单元，直接建模机器人与环境的联合演化；模型以自回归方式逐步预测下一步视频与动作。
连续空间的DiT去分词器（de-tokenizer）：以扩散Transformer（DiT）建模帧与动作的连续分布，避免离散量化带来的误差累积，并促进两模态的相互增强。
面向控制的因果掩码与效率机制：引入“动作对帧的单向注意力”，形成隐式逆运动学；同时结合并行训练与KV-cache提升推理效率。

研究背景

在机器人操控领域，获取大规模、标注完备的人类示教数据成本高昂。现有不少方法把语言大模型用于行动策略，但文本与动作模态之间存在天然鸿沟。相比之下，自回归视频生成模型天生擅长“基于过去预测未来”，与动作生成的目标更一致，因此成为迁移“世界知识”的理想载体。

此外，要让机器人“知行合一”，不仅要“想得明白”，更要“做得精准”。现有的方法往往只依赖于“当前帧+前一帧”的“局部观察”，缺乏对长程历史的记忆。与之相比，具备全局记忆的自回归框架，可通过历史全量token预测未来状态，实现“视觉-动作”的全局关联建模，有效降低机器人在动态场景中（如机器人抓取、物体堆叠）因“短视”导致的“动作漂移”问题。

方法：PAR 如何把“看见的未来”变成“下一步动作”

整体框架：从“看—想—做”的自回归闭环
PAR 的核心想法是把机器人与环境的交互过程，统一描述成一串“物理token”。每个 token 同时包含这一刻的视觉画面和动作片段。模型像讲故事一样按时间读入这些token，用一个因果式Transformer形成对当前情境的理解，然后同时预测下一张将看到的画面以及下一步要执行的动作。新的画面和动作再被接回序列，进入下一轮预测，形成“预测—执行—再预测”的闭环。

直观地说，PAR并不是先独立学会“看视频”，再额外学会“怎么动”，而是把两件事合在一起、每一步都边看边想边做。这种端到端的整体建模，避免了两阶段方法常见的分布偏移，也更贴近真实控制场景里“在行动中不断校正”的节奏。

图1：整体框架：从“看—想—做”的物理自回归闭环

生成细节：在“连续空间”里同时生成视频与动作
传统做法常把视频和动作先量化成离散码，再去预测，这会引入不可忽略的量化误差。PAR 选择在连续空间里直接建模：

统一条件，双分支生成。上述 Transformer 得到的“情境表示”被同时送入两个生成器：一个负责“把下一张画面逐步复原出来”（视频分支），另一个负责“把下一段动作逐步生成出来”（动作分支）。两个分支共享同一份条件，因此在训练时能彼此约束、相互增强——看到的未来会直接影响该怎么动，反过来更合理的动作也会促使画面预测更贴近真实。
逐步细化，贴近真实。两个分支都采用逐步细化的生成方式（多步从粗到细），这让结果更加平滑、细节更真实，尤其适合对轨迹连续性和视觉连贯性都很敏感的机器人任务。
轻量动作解码器。动作本身维度较低，采用更轻量的生成器即可稳定产出可控、平滑的控制量，便于在线部署。

注意力与控制：时间因果 + 帧内双向 + 动作←视觉单向
为把“预测未来”和“生成动作”真正做成控制器可用的能力，PAR 在注意力结构上加入了三条关键约束：

时间因果。跨时间维度只能“看过去、不能看未来”，保证推理时与真实执行一致，避免“偷看答案”。
帧内双向。同一帧内部，图像的各个区域可以相互关注，让模型准确理解目标、障碍和机械臂之间的空间关系，从而把下一张画面预测得更可信。
动作←视觉的单向通道。当前步待预测的动作可以关注同一时刻待预测的视觉表示，但反过来不行；直觉上，这等价于在网络里植入一种“从期望实现的外观与相对位置反推该怎么动”的先验（可把它理解为一种隐式逆运动学）。这使得动作更紧贴关键像素区域（例如方块或目标区），减小偏差累积。
在工程层面，推理时配合KV-cache等增量计算，只对新增的 token 计算注意力，长序列滚动的时延增长更可控，适合在线控制。

评测与结果

主要评测结果：在maniskill基准中，PAR在PushCube达到100%成功率，总体成绩居第二，仅次于需要动作预训练的RDT；在PickCube与StackCube上也超过或接近需要动作预训练的强基准方法（总体平均74%）。
对齐与可解释性：如图2所示，可视化显示预测视频与实际执行在关键动作时序与轨迹上高度一致；如图3所示，注意力图表明不同头会在帧/动作token与关键像素区域（方块、目标区、机械臂）之间进行有针对性的聚焦。

图 2：预测视频与实际执行关联可视化

图3：注意力图

PAR证明了“从视频世界迁移物理知识”用于机器人操控的有效性：不需要动作预训练，即可同时实现未来视频预测与一致的动作轨迹生成，为解决示教数据稀缺提供新路径。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.