网易首页 > 网易号 > 正文 申请入驻

蚂蚁灵波:首个自回归因果世界模型,50条数据解锁通用机器人操控

0
分享至



赋予机器人物理理解和预测能力是通用操作的关键。蚂蚁灵波等机构提出的 LingBot-VA 试图将视频帧预测与动作推理统一起来,让机器人通过自回归扩散框架学会“一边思考一边行动”。

在通用机器人领域,机器人控制需要的不只是“看懂”当前画面 ,还需要预测未来。如果一个模型不能理解“推倒杯子会导致水洒出来”这种物理因果关系,它就很难在复杂环境中做出正确规划。然而,实现稳健的物理推理和预测能力一直是核心难题。当机器人面对需要长程规划、高精度操作或处理柔性物体的复杂任务时,它们往往显得笨拙且难以适应环境的动态变化。

当前主流的视觉-语言-动作(VLA)模型通常直接将视觉观察映射到动作,或者依赖于单帧或短时间窗口的预测。然而,这种端到端的范式缺乏显式建模物理过程的机制,导致模型容易陷入轨迹记忆。同时,将任务视为马尔可夫过程并丢弃历史信息,使得模型在部分可观测和长程任务中难以消除歧义。此外,现有的视频生成模型通常采用破坏因果关系的双向注意力机制,且推理延迟过高,难以满足机器人高频控制的需求。

针对上述问题,来自蚂蚁灵波科技、香港科技大学等机构的研究团队提出了LingBot-VA,一种全新的自回归(AR)视频-动作世界模型,通过统一视频动态预测和动作推理,将物理世界的因果结构融入机器人控制中。该模型不直接学习动作分布,而是先预测视觉世界将如何演变,然后基于这些预测推断动作。这种解耦使得模型可以利用大规模视频数据学习物理先验,同时只需少量机器人演示数据就能将这些先验转化为可执行的动作。



  • 论文链接:
  • https://arxiv.org/abs/2601.21998
  • 项目主页:
  • https://technology.robbyant.com/lingbot-va

LingBot-VA:统一视频与动作的自回归生成

LingBot-VA 的核心在于将视频和动作标记(tokens)交错成单一的因果序列,通过自回归方式联合建模环境动态和机器人动作。

为了弥合现有方法与真实世界复杂性之间的鸿沟,LingBot-VA的设计初衷是为了真实地模拟和预测物理世界的完整交互流程。

  • 交错式自回归生成:LingBot-VA 采用了一种创新的混合 Transformer(Mixture-of-Transformers, MoT)架构。该架构将视频流和动作流解耦但交错处理,特定模态的专家在严格的因果掩码下工作:高容量的视频专家根据观察-动作历史预测未来的视觉状态,而轻量级的动作专家则推断与这些预测一致的动作。这种非对称设计既能捕捉复杂的场景过渡,又能保持极低的单步动作解码成本。
  • 持久且高效的历史整合:不同于固定长度窗口的方法,LingBot-VA 的因果公式允许每次预测都基于完整的过去观察-动作流。在推理时,模型仅将真实的观测结果输入到 KV 缓存中,从而将策略锚定在实际的交互历史中。KV 缓存极大地分摊了长序列生成中的计算成本,赋予了模型强大的时间记忆能力。
  • 噪声潜在增强实现快速推理:视频去噪是推理时的主要计算瓶颈。研究团队敏锐地发现,机器人控制需要的是高级语义结构,而非像素级完美的细节。因此,他们在训练中引入了噪声潜在增强策略,允许动作专家直接从部分去噪的视频潜在表示中解码动作。在部署时,这使得模型可以提前截断视频去噪过程,在保持动作精度的同时大幅提升推理速度。



LingBot-VA 的实现遵循了一个严谨的流程,以确保其高质量和可靠性:

1、统一架构设计:采用基于视频生成预训练模型初始化的视频流和较小的动作流组成的双流 MoT 架构。

2、状态编码与对齐:使用因果视频 VAE 将原始视觉观察压缩为紧凑的潜在标记,并通过 MLP 将动作向量投影到相同维度,实现跨模态的统一交错。

3、两阶段预测机制:第一阶段(视觉动态预测)学习给定历史预测未来视觉观察;第二阶段(逆动力学)从期望的视觉过渡中解码出具体动作。

4、高效训练策略:采用教师强制(Teacher Forcing)和流匹配(Flow Matching)技术,在单一前向传递中并行优化视频和动作组件。

实验验证与模型性能:

50 条数据解锁真实世界操控

研究团队在真实物理平台和多个仿真基准上对LingBot-VA 进行了评估。

在真实世界部署中,LingBot-VA 执行了三类极具挑战性的任务:长程任务(如做早餐、拆快递)、高精度任务(如插入管子、捡螺丝)和柔性物体操作(如叠衣服、叠裤子)。令人惊讶的是,每个任务仅使用了 50 个真实世界的演示数据进行微调。



实验结果显示,LingBot-VA 在所有六个任务的成功率和进度得分上均达到了 SOTA 水平,显著超过了强基线模型 π0.5 和Genie-Envisioner。特别是在长程任务上的卓越表现,充分证明了其强大的时间记忆能力;而在柔性物体上的稳健表现,则凸显了视频生成作为隐式引导预测物体动态的巨大价值。

在 RoboTwin 2.0 这一包含 50 个任务的双臂操控基准测试中,LingBot-VA 同样展现了统治力。在 Easy 设置下,它取得了 92.0% 的平均成功率;在更具挑战性的 Hard 设置下,成功率也高达 91.1%。随着任务复杂度的增加,LingBot-VA 的优势愈发明显,其自回归机制有效地维持了长程时间记忆,确保了多步推理的连贯性。



此外,在LIBERO基准的四个任务套件(Spatial, Object, Goal, Long)中,LingBot-VA 则达到了 98.5% 的平均成功率。



消融实验进一步证实了核心设计的必要性:移除视频预测模块会导致成功率从 92.93% 断崖式下跌至48.31%;而放弃因果公式采用双向注意力,也会使性能显著下降至 81.46%。

LingBot-VA 不仅性能强大,而且极其高效。在低数据量(仅 10 个演示)的情况下,它依然能够稳定超越基线模型,展现出惊人的样本效率。在推理延迟方面,得益于噪声潜在增强策略,在单张 RTX 5880 Ada GPU 上,每次闭环控制步骤仅需约 0.5 秒,实现了约 2Hz 的有效控制频率,完全满足了真实世界部署的需求。

总结与未来展望

研究团队提出的 LingBot-VA 为解决通用机器人控制中的物理推理和长程规划问题提供了一个全新且高效的思路。通过将视频动态预测与动作推理统一在自回归扩散框架下,LingBot-VA不仅在理论上进行了创新,更通过充分的实验证明了其卓越的性能和数据效率。它成功地将生成式世界模型的强大预测能力引入了机器人具身操作,向实现机器人“一边思考一边行动”迈出了坚实的一步。

在未来的工作中,研究团队计划探索更高效的视频压缩方案以进一步降低计算开销,并尝试融入触觉、力觉、音频等多模态传感器输入,以应对具有复杂接触动力学的更广泛应用场景。LingBot-VA 的出现,无疑为具身智能和通用机器人的发展注入了新的强劲动力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白嫖潮汕火锅失控!多位被坑商家再实锤,警方出手,坐牢只是开始

白嫖潮汕火锅失控!多位被坑商家再实锤,警方出手,坐牢只是开始

奇思妙想草叶君
2026-06-03 17:07:22
“第二个朝鲜”出现了?俄罗斯正在养虎为患,真正慌的是巴基斯坦

“第二个朝鲜”出现了?俄罗斯正在养虎为患,真正慌的是巴基斯坦

原来仙女不讲理
2026-06-03 14:49:33
当你接触的家庭越多,就会发现:不管儿子买了多好多大的房子,父母去了,也多半是住最差的一间,哪怕父母出了一部分买房的钱。

当你接触的家庭越多,就会发现:不管儿子买了多好多大的房子,父母去了,也多半是住最差的一间,哪怕父母出了一部分买房的钱。

大爱三湘
2026-06-03 20:24:33
北京市发布雷电蓝色预警

北京市发布雷电蓝色预警

界面新闻
2026-06-03 11:08:17
徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

庭小娱
2026-06-01 15:20:06
访华半月后,鲁比奥吐露肺腑之言,美部长:中国终极目的只有一个

访华半月后,鲁比奥吐露肺腑之言,美部长:中国终极目的只有一个

见闻可乐猫
2026-06-03 20:31:52
千万钻石沦为陪衬!奚梦瑶脖子一串老珍珠,才是豪门脸面

千万钻石沦为陪衬!奚梦瑶脖子一串老珍珠,才是豪门脸面

白面书誏
2026-06-03 15:19:54
两万多买的联动云下线“观致5”,深夜莫名被拖走,数十名车主陷维权困局

两万多买的联动云下线“观致5”,深夜莫名被拖走,数十名车主陷维权困局

大风新闻
2026-06-03 11:40:10
香港“演艺界教父”钟景辉今晨在睡梦中安详离世……他是周润发等巨星的恩师,曾参演《赌神3》《算死草》《使徒行者》

香港“演艺界教父”钟景辉今晨在睡梦中安详离世……他是周润发等巨星的恩师,曾参演《赌神3》《算死草》《使徒行者》

都市快报橙柿互动
2026-06-03 14:08:56
世体:巴萨仍未就拉什福德向曼联报价,后者对此颇有不满

世体:巴萨仍未就拉什福德向曼联报价,后者对此颇有不满

懂球帝
2026-06-03 20:33:22
成都一汉庭酒店未按规定对顾客用品用具进行清洗、消毒、保洁,官方:停业整顿

成都一汉庭酒店未按规定对顾客用品用具进行清洗、消毒、保洁,官方:停业整顿

界面新闻
2026-06-03 11:18:07
葵花药业发布严正声明!从未生产、销售或授权任何驱蚊类产品,涉事产品与公司无任何关联

葵花药业发布严正声明!从未生产、销售或授权任何驱蚊类产品,涉事产品与公司无任何关联

每日经济新闻
2026-06-02 23:20:35
何鸿燊四房小儿子大婚,何超盈带女儿出席何猷亨献唱,只大哥没到

何鸿燊四房小儿子大婚,何超盈带女儿出席何猷亨献唱,只大哥没到

小疯子耶
2026-06-03 11:26:22
俄罗斯官媒中文帐号终于被禁!大V司马南是他的深度合作伙伴

俄罗斯官媒中文帐号终于被禁!大V司马南是他的深度合作伙伴

霹雳炮
2026-06-02 23:18:05
“人间异类”陈瑾:20年不吃米饭,跟哥哥相约一生不婚不育

“人间异类”陈瑾:20年不吃米饭,跟哥哥相约一生不婚不育

观察者小海风
2026-06-02 13:43:18
海藻为什么是男人眼中的极品

海藻为什么是男人眼中的极品

乡野小珥
2026-06-01 18:15:36
世联赛3日战报:亚洲女排0-3完败,中国女排力争开门红

世联赛3日战报:亚洲女排0-3完败,中国女排力争开门红

五姑娘台球
2026-06-03 16:43:26
英媒评世界杯十大球衣:90年德国居首,喀麦隆无袖球衣在列

英媒评世界杯十大球衣:90年德国居首,喀麦隆无袖球衣在列

懂球帝
2026-06-02 14:58:36
4吨重的新能源不合理?不如先聊聊养路费怎么收

4吨重的新能源不合理?不如先聊聊养路费怎么收

新浪财经
2026-06-03 03:43:11
“小作文”突袭!300085午后跳水

“小作文”突袭!300085午后跳水

证券时报
2026-06-03 19:06:28
2026-06-03 21:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

一个月内两位院士候选人接连被查 均是科研专家

头条要闻

一个月内两位院士候选人接连被查 均是科研专家

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
亲子
健康
公开课
军事航空

旅游要闻

身份证32开头的速看!“东北老铁”家的39个景区对你免费开放

亲子要闻

#闪闪小葵花成长正当时 亲子欢乐派对圆满收官 游戏、展演、问答轮番上线,乐享亲子时光

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版