网易首页 > 网易号 > 正文 申请入驻

无需动作预训练,物理自回归模型让机器人“从视频学会操作”

0
分享至

不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成。

作者丨拓元智慧AI团队

该论文作者来自中山大学、拓元智慧AI实验室团队,项目负责人为王广润博士。王广润,国家级“四青人才”、拓元智慧首席科学家、中山大学计算机学院副教授、博士生导师、华为战略研究院人才基金获得者、前牛津大学研究员,主要研究方向包括新一代AI架构、大物理模型、多模态生成式AI等。

论文题目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining论文链接:https://arxiv.org/abs/2508.09822项目主页:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日,由中山大学拓元智慧AI实验室联合提出的全新“物理自回归模型(Physical Autoregressive Model,PAR)”打通了“预判未来视频帧—生成动作轨迹”的统一链路,将视觉帧与动作共同编码为“物理token”,在无需动作预训练的前提下即可学习物理世界的动态规律。基于ManiSkill基准,PAR 在PushCube任务上实现100%成功率,并在其余任务上与需要动作预训练的强基线表现相当,显示了从大规模视频预训练向机器人操控迁移的可行路径。

核心技术点:

  • 全局记忆的自回归框架:构建从过去到现在的所有“观察-动作”历史,借鉴GPT等语言模型的工作模式,基于全部N个历史token预测下一步(N+1步)最合理的行动。

  • 统一的“物理token”表征:将帧与动作拼接为一个序列单元,直接建模机器人与环境的联合演化;模型以自回归方式逐步预测下一步视频与动作。

  • 连续空间的DiT去分词器(de-tokenizer):以扩散Transformer(DiT)建模帧与动作的连续分布,避免离散量化带来的误差累积,并促进两模态的相互增强。

  • 面向控制的因果掩码与效率机制:引入“动作对帧的单向注意力”,形成隐式逆运动学;同时结合并行训练与KV-cache提升推理效率。

01

研究背景

在机器人操控领域,获取大规模、标注完备的人类示教数据成本高昂。现有不少方法把语言大模型用于行动策略,但文本与动作模态之间存在天然鸿沟。相比之下,自回归视频生成模型天生擅长“基于过去预测未来”,与动作生成的目标更一致,因此成为迁移“世界知识”的理想载体。

此外,要让机器人“知行合一”,不仅要“想得明白”,更要“做得精准”。现有的方法往往只依赖于“当前帧+前一帧”的“局部观察”,缺乏对长程历史的记忆。与之相比,具备全局记忆的自回归框架,可通过历史全量token预测未来状态,实现“视觉-动作”的全局关联建模,有效降低机器人在动态场景中(如机器人抓取、物体堆叠)因“短视”导致的“动作漂移”问题。

02

方法:PAR 如何把“看见的未来”变成“下一步动作”

整体框架:从“看—想—做”的自回归闭环
PAR 的核心想法是把机器人与环境的交互过程,统一描述成一串“物理token”。每个 token 同时包含这一刻的视觉画面动作片段。模型像讲故事一样按时间读入这些token,用一个因果式Transformer形成对当前情境的理解,然后同时预测下一张将看到的画面以及下一步要执行的动作。新的画面和动作再被接回序列,进入下一轮预测,形成“预测—执行—再预测”的闭环。

直观地说,PAR并不是先独立学会“看视频”,再额外学会“怎么动”,而是把两件事合在一起、每一步都边看边想边做。这种端到端的整体建模,避免了两阶段方法常见的分布偏移,也更贴近真实控制场景里“在行动中不断校正”的节奏。

图1:整体框架:从“看—想—做”的物理自回归闭环

生成细节:在“连续空间”里同时生成视频与动作
传统做法常把视频和动作先量化成离散码,再去预测,这会引入不可忽略的量化误差。PAR 选择在连续空间里直接建模:

  • 统一条件,双分支生成。上述 Transformer 得到的“情境表示”被同时送入两个生成器:一个负责“把下一张画面逐步复原出来”(视频分支),另一个负责“把下一段动作逐步生成出来”(动作分支)。两个分支共享同一份条件,因此在训练时能彼此约束、相互增强——看到的未来会直接影响该怎么动,反过来更合理的动作也会促使画面预测更贴近真实。

  • 逐步细化,贴近真实。两个分支都采用逐步细化的生成方式(多步从粗到细),这让结果更加平滑、细节更真实,尤其适合对轨迹连续性和视觉连贯性都很敏感的机器人任务。

  • 轻量动作解码器。动作本身维度较低,采用更轻量的生成器即可稳定产出可控、平滑的控制量,便于在线部署。

注意力与控制:时间因果 + 帧内双向 + 动作←视觉单向
为把“预测未来”和“生成动作”真正做成控制器可用的能力,PAR 在注意力结构上加入了三条关键约束:

  1. 时间因果。跨时间维度只能“看过去、不能看未来”,保证推理时与真实执行一致,避免“偷看答案”。

  2. 帧内双向。同一帧内部,图像的各个区域可以相互关注,让模型准确理解目标、障碍和机械臂之间的空间关系,从而把下一张画面预测得更可信。

  3. 动作←视觉的单向通道。当前步待预测的动作可以关注同一时刻待预测的视觉表示,但反过来不行;直觉上,这等价于在网络里植入一种“从期望实现的外观与相对位置反推该怎么动”的先验(可把它理解为一种隐式逆运动学)。这使得动作更紧贴关键像素区域(例如方块或目标区),减小偏差累积。
    在工程层面,推理时配合KV-cache等增量计算,只对新增的 token 计算注意力,长序列滚动的时延增长更可控,适合在线控制。

03

评测与结果

  • 主要评测结果:在maniskill基准中,PAR在PushCube达到100%成功率,总体成绩居第二,仅次于需要动作预训练的RDT;在PickCube与StackCube上也超过或接近需要动作预训练的强基准方法(总体平均74%)。

  • 对齐与可解释性:如图2所示,可视化显示预测视频实际执行在关键动作时序与轨迹上高度一致;如图3所示,注意力图表明不同头会在帧/动作token与关键像素区域(方块、目标区、机械臂)之间进行有针对性的聚焦。

图 2:预测视频实际执行关联可视化

图3:注意力图

PAR证明了“从视频世界迁移物理知识”用于机器人操控的有效性:不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成,为解决示教数据稀缺提供新路径。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
颈动脉彩超报告,没有这6个描述,就不必担心脑梗!一定要知道!

颈动脉彩超报告,没有这6个描述,就不必担心脑梗!一定要知道!

健康科普365
2026-03-31 19:40:03
终于有农村老人道出实话:城里亲人回来上坟,为啥很少有管饭的

终于有农村老人道出实话:城里亲人回来上坟,为啥很少有管饭的

三农雷哥
2026-03-31 19:08:56
不管你信与不信,女性过了55岁后,基本都有以下6个方面的需求

不管你信与不信,女性过了55岁后,基本都有以下6个方面的需求

顾一宸
2026-03-31 22:07:46
神仙姐姐刘亦菲最新野生图

神仙姐姐刘亦菲最新野生图

微微热评
2026-04-01 00:06:11
新华社:伊朗战事终局有几种可能?

新华社:伊朗战事终局有几种可能?

澎湃新闻
2026-04-01 00:17:24
以色列清醒了?内塔尼亚胡指示军方,严厉打击约旦河西岸暴力行为

以色列清醒了?内塔尼亚胡指示军方,严厉打击约旦河西岸暴力行为

至死不渝的爱情
2026-04-01 00:04:50
芒果台让“浪姐”们给能蹭到的最大的咖打电话,看谁才是人脉王?

芒果台让“浪姐”们给能蹭到的最大的咖打电话,看谁才是人脉王?

星宿影视鸭
2026-03-31 18:43:37
毕节一副局长被曝曾公开在微博宣布自己不是中国人

毕节一副局长被曝曾公开在微博宣布自己不是中国人

映射生活的身影
2026-03-31 02:04:09
“北京的职高女,也不过是职高女!”一段演讲视频,被全网嘲笑

“北京的职高女,也不过是职高女!”一段演讲视频,被全网嘲笑

妍妍教育日记
2026-03-30 17:53:32
重庆一飞手用无人机吊人上山!大疆发布公告:性质恶劣,吊销操作证书!当地警方介入

重庆一飞手用无人机吊人上山!大疆发布公告:性质恶劣,吊销操作证书!当地警方介入

大象新闻
2026-03-31 13:53:04
全红婵:我改变了全家人命运!也让全家人被骂 禁止弟弟妹妹继续练跳水

全红婵:我改变了全家人命运!也让全家人被骂 禁止弟弟妹妹继续练跳水

阿废冷眼观察所
2026-03-31 18:58:54
何润东也是“下镜脸”?花絮里比正片帅多了,难怪以前总演美男子

何润东也是“下镜脸”?花絮里比正片帅多了,难怪以前总演美男子

大铁猫娱乐
2026-03-31 18:35:03
那个独自喝咖啡的下午,我找回了自己

那个独自喝咖啡的下午,我找回了自己

疾跑的小蜗牛
2026-03-31 20:09:44
即将复出!库里正式获准参加5v5对抗 状态出色激发全队士气

即将复出!库里正式获准参加5v5对抗 状态出色激发全队士气

罗说NBA
2026-04-01 06:08:48
山东舰服役4年,为何不像辽宁舰一样去远洋训练?外媒: 它不敢去

山东舰服役4年,为何不像辽宁舰一样去远洋训练?外媒: 它不敢去

近史博览
2026-03-31 12:17:25
何超盈6岁女儿举办艺术展,何超盈亮相一脸自豪,辛奇隆再度缺席

何超盈6岁女儿举办艺术展,何超盈亮相一脸自豪,辛奇隆再度缺席

八斗小先生
2026-03-31 10:36:34
中国大使参加摩洛哥国王宴会,士兵闯入开枪扫射,众人倒在血泊中

中国大使参加摩洛哥国王宴会,士兵闯入开枪扫射,众人倒在血泊中

百年历史老号
2024-04-02 19:37:39
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
网友称裤子有针头被扎到!ZARA涉事门店:公司正在调查

网友称裤子有针头被扎到!ZARA涉事门店:公司正在调查

南方都市报
2026-03-31 18:42:24
官方:开拓者易主!

官方:开拓者易主!

五星体育
2026-04-01 01:58:59
2026-04-01 07:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7161文章数 20742关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

艺术
房产
家居
健康
军事航空

艺术要闻

蓝瑛『兰竹石册』

房产要闻

重磅!海南城市更新拟出新政!

家居要闻

新婚爱巢 甜蜜情趣拉满

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版