网易首页 > 网易号 > 正文 申请入驻

无需动作预训练,物理自回归模型让机器人“从视频学会操作”

0
分享至


不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成。

作者丨拓元智慧AI团队

该论文作者来自中山大学、拓元智慧AI实验室团队,项目负责人为王广润博士。王广润,国家级“四青人才”、拓元智慧首席科学家、中山大学计算机学院副教授、博士生导师、华为战略研究院人才基金获得者、前牛津大学研究员,主要研究方向包括新一代AI架构、大物理模型、多模态生成式AI等。


论文题目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining论文链接:https://arxiv.org/abs/2508.09822项目主页:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日,由中山大学拓元智慧AI实验室联合提出的全新“物理自回归模型(Physical Autoregressive Model,PAR)”打通了“预判未来视频帧—生成动作轨迹”的统一链路,将视觉帧与动作共同编码为“物理token”,在无需动作预训练的前提下即可学习物理世界的动态规律。基于ManiSkill基准,PAR 在PushCube任务上实现100%成功率,并在其余任务上与需要动作预训练的强基线表现相当,显示了从大规模视频预训练向机器人操控迁移的可行路径。

核心技术点:

  • 全局记忆的自回归框架:构建从过去到现在的所有“观察-动作”历史,借鉴GPT等语言模型的工作模式,基于全部N个历史token预测下一步(N+1步)最合理的行动。

  • 统一的“物理token”表征:将帧与动作拼接为一个序列单元,直接建模机器人与环境的联合演化;模型以自回归方式逐步预测下一步视频与动作。

  • 连续空间的DiT去分词器(de-tokenizer):以扩散Transformer(DiT)建模帧与动作的连续分布,避免离散量化带来的误差累积,并促进两模态的相互增强。

  • 面向控制的因果掩码与效率机制:引入“动作对帧的单向注意力”,形成隐式逆运动学;同时结合并行训练与KV-cache提升推理效率。

01

研究背景

在机器人操控领域,获取大规模、标注完备的人类示教数据成本高昂。现有不少方法把语言大模型用于行动策略,但文本与动作模态之间存在天然鸿沟。相比之下,自回归视频生成模型天生擅长“基于过去预测未来”,与动作生成的目标更一致,因此成为迁移“世界知识”的理想载体。

此外,要让机器人“知行合一”,不仅要“想得明白”,更要“做得精准”。现有的方法往往只依赖于“当前帧+前一帧”的“局部观察”,缺乏对长程历史的记忆。与之相比,具备全局记忆的自回归框架,可通过历史全量token预测未来状态,实现“视觉-动作”的全局关联建模,有效降低机器人在动态场景中(如机器人抓取、物体堆叠)因“短视”导致的“动作漂移”问题。

02

方法:PAR 如何把“看见的未来”变成“下一步动作”

整体框架:从“看—想—做”的自回归闭环
PAR 的核心想法是把机器人与环境的交互过程,统一描述成一串“物理token”。每个 token 同时包含这一刻的视觉画面动作片段。模型像讲故事一样按时间读入这些token,用一个因果式Transformer形成对当前情境的理解,然后同时预测下一张将看到的画面以及下一步要执行的动作。新的画面和动作再被接回序列,进入下一轮预测,形成“预测—执行—再预测”的闭环。

直观地说,PAR并不是先独立学会“看视频”,再额外学会“怎么动”,而是把两件事合在一起、每一步都边看边想边做。这种端到端的整体建模,避免了两阶段方法常见的分布偏移,也更贴近真实控制场景里“在行动中不断校正”的节奏。


图1:整体框架:从“看—想—做”的物理自回归闭环

生成细节:在“连续空间”里同时生成视频与动作
传统做法常把视频和动作先量化成离散码,再去预测,这会引入不可忽略的量化误差。PAR 选择在连续空间里直接建模:

  • 统一条件,双分支生成。上述 Transformer 得到的“情境表示”被同时送入两个生成器:一个负责“把下一张画面逐步复原出来”(视频分支),另一个负责“把下一段动作逐步生成出来”(动作分支)。两个分支共享同一份条件,因此在训练时能彼此约束、相互增强——看到的未来会直接影响该怎么动,反过来更合理的动作也会促使画面预测更贴近真实。

  • 逐步细化,贴近真实。两个分支都采用逐步细化的生成方式(多步从粗到细),这让结果更加平滑、细节更真实,尤其适合对轨迹连续性和视觉连贯性都很敏感的机器人任务。

  • 轻量动作解码器。动作本身维度较低,采用更轻量的生成器即可稳定产出可控、平滑的控制量,便于在线部署。

注意力与控制:时间因果 + 帧内双向 + 动作←视觉单向
为把“预测未来”和“生成动作”真正做成控制器可用的能力,PAR 在注意力结构上加入了三条关键约束:

  1. 时间因果。跨时间维度只能“看过去、不能看未来”,保证推理时与真实执行一致,避免“偷看答案”。

  2. 帧内双向。同一帧内部,图像的各个区域可以相互关注,让模型准确理解目标、障碍和机械臂之间的空间关系,从而把下一张画面预测得更可信。

  3. 动作←视觉的单向通道。当前步待预测的动作可以关注同一时刻待预测的视觉表示,但反过来不行;直觉上,这等价于在网络里植入一种“从期望实现的外观与相对位置反推该怎么动”的先验(可把它理解为一种隐式逆运动学)。这使得动作更紧贴关键像素区域(例如方块或目标区),减小偏差累积。
    在工程层面,推理时配合KV-cache等增量计算,只对新增的 token 计算注意力,长序列滚动的时延增长更可控,适合在线控制。

03

评测与结果

  • 主要评测结果:在maniskill基准中,PAR在PushCube达到100%成功率,总体成绩居第二,仅次于需要动作预训练的RDT;在PickCube与StackCube上也超过或接近需要动作预训练的强基准方法(总体平均74%)。

  • 对齐与可解释性:如图2所示,可视化显示预测视频实际执行在关键动作时序与轨迹上高度一致;如图3所示,注意力图表明不同头会在帧/动作token与关键像素区域(方块、目标区、机械臂)之间进行有针对性的聚焦。


图 2:预测视频实际执行关联可视化


图3:注意力图

PAR证明了“从视频世界迁移物理知识”用于机器人操控的有效性:不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成,为解决示教数据稀缺提供新路径。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为了永留美国,在联合国大楼举牌抹黑中国的张晓宁,终于“圆梦”

为了永留美国,在联合国大楼举牌抹黑中国的张晓宁,终于“圆梦”

壹知眠羊
2025-09-14 19:11:45
福耀科技大学火出圈:开学发岗位清单,毕业保底25万年薪!

福耀科技大学火出圈:开学发岗位清单,毕业保底25万年薪!

玉辞心
2025-09-14 09:59:35
英伟达美股盘前直线下挫,跌幅扩大至2.4%

英伟达美股盘前直线下挫,跌幅扩大至2.4%

每日经济新闻
2025-09-15 16:09:07
正式退出?梁靖崑亮相北京,官宣决定,13年奖金曝光,国乒批准

正式退出?梁靖崑亮相北京,官宣决定,13年奖金曝光,国乒批准

东球弟
2025-09-15 11:30:08
给乌克兰捐款5亿美金?李嘉诚紧急发声,更大的“麻烦”却在后面

给乌克兰捐款5亿美金?李嘉诚紧急发声,更大的“麻烦”却在后面

小鬼头体育
2025-09-15 12:31:33
厦门小伙娶格鲁吉亚美女,卖空老丈人葡萄酒,获格鲁吉亚荣誉勋章

厦门小伙娶格鲁吉亚美女,卖空老丈人葡萄酒,获格鲁吉亚荣誉勋章

柳絮忆史
2025-09-15 09:22:13
行业唯一四等边白面板!魅族22图赏

行业唯一四等边白面板!魅族22图赏

快科技
2025-09-15 19:32:43
美财长耶伦警告:美国将“破产”!对中国犯下两大错误,自食恶果

美财长耶伦警告:美国将“破产”!对中国犯下两大错误,自食恶果

瞻史
2025-09-15 10:50:57
他信已被剃发,佩通坦陪同母亲完成探望,全程约半小时

他信已被剃发,佩通坦陪同母亲完成探望,全程约半小时

地球记
2025-09-15 15:21:30
成毅《赴山海》首播收视第1,却差评一片,古装丑男再添三员猛将

成毅《赴山海》首播收视第1,却差评一片,古装丑男再添三员猛将

查尔菲的笔记
2025-09-13 11:11:24
曼联0-3完败曼城,验出头号水货!詹俊点评一针见血,1人耽误全队

曼联0-3完败曼城,验出头号水货!詹俊点评一针见血,1人耽误全队

球场没跑道
2025-09-15 09:10:48
阅兵方队为什么一定是352人?隐藏70年的数字密码终于破解!

阅兵方队为什么一定是352人?隐藏70年的数字密码终于破解!

诗意世界
2025-09-14 22:25:27
罗永浩:华与华老板已经跟我道了歉,这件事可以过去了!西贝集体诉讼会公开报名渠道,贾国龙道歉也来不及了

罗永浩:华与华老板已经跟我道了歉,这件事可以过去了!西贝集体诉讼会公开报名渠道,贾国龙道歉也来不及了

和讯网
2025-09-15 12:17:34
台“高等法院”撤销柯文哲、应晓薇交保,北院重开羁押庭

台“高等法院”撤销柯文哲、应晓薇交保,北院重开羁押庭

参考消息
2025-09-15 12:28:08
42岁希尔顿:别墅烧毁又买4.5亿庄园,和孩子玩滑梯,婚后收心了

42岁希尔顿:别墅烧毁又买4.5亿庄园,和孩子玩滑梯,婚后收心了

毒舌小红帽
2025-09-10 18:59:32
金与正的婚姻决定震惊朝鲜内外:再也不会有第二个张成泽!

金与正的婚姻决定震惊朝鲜内外:再也不会有第二个张成泽!

阿校谈史
2025-07-23 16:33:19
“差距”越来越大,普通人还能撑多久

“差距”越来越大,普通人还能撑多久

听风听你
2025-08-22 18:32:44
当修理兵18年,转业时领导说我技术一般,我没闹,次日他:我才一般

当修理兵18年,转业时领导说我技术一般,我没闹,次日他:我才一般

风起青萍之未
2025-09-15 17:39:16
张兰骑山地车,马筱梅换衣服,麻六记的糖葫芦又给西贝上了 一课

张兰骑山地车,马筱梅换衣服,麻六记的糖葫芦又给西贝上了 一课

寻墨阁
2025-09-15 10:45:33
石平事件再度升温:日本社会拒绝接受,中国坚决“拒绝废弃物”

石平事件再度升温:日本社会拒绝接受,中国坚决“拒绝废弃物”

游古史
2025-09-15 10:07:27
2025-09-15 22:04:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6926文章数 20685关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

2名英国男子被指控为"中国间谍" 2年后被无罪释放

头条要闻

2名英国男子被指控为"中国间谍" 2年后被无罪释放

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

教育
时尚
本地
手机
数码

教育要闻

邹小兵上海站 | 倒计时5天!

女人过了50岁真该像她一样打扮,不装嫩、不老气,得体有气质

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

手机要闻

消息称荣耀 MagicPad3 Pro 平板端首发第五代骁龙 8 至尊版

数码要闻

美光先发优势遭重挫!NVIDIA叫停首代SOCAMM内存开发:转向SOCAMM2

无障碍浏览 进入关怀版