1月30日消息,继空间感知模型、具身大模型与世界模型“三连发”后,蚂蚁灵波科技今日宣布开源具身世界模型LingBot-VA。
据介绍,LingBot-VA首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。
在真机评测方面,LingBot-VA展现了对物理交互的适应能力。面对制作早餐、拾取螺丝等长时序任务,插入试管、拆快递等高精度任务,以及叠衣物等柔性与关节物体操控挑战,该模型在仅需30至50条真机演示数据的情况下即可完成适配。评测结果显示,其任务成功率相较于行业基线模型Pi0.5平均提升约20%。
![]()
图注:真机评测中,LingBot-VA在多项高难操作任务上性能超越Pi0.5
在仿真评测中,据悉,LingBot-VA在双臂协同操作基准RoboTwin 2.0上的成功率超过90%,在长时序终身学习基准 LIBERO 上达到了98.5% 的平均成功率,在多项指标上表现优异。
![]()
图注:LingBot-VA 在LIBERO与RoboTwin 2.0仿真基准测试中的表现
技术架构方面,据了解,LingBot-VA 采用了 Mixture-of-Transformers(MoT)架构,以实现视频处理与动作控制的跨模态融合。模型引入了闭环推演机制,在每一步生成时纳入真实世界的实时反馈,以确保生成的画面与动作符合物理现实。此外,为解决大规模视频世界模型在机器人端侧落地的计算瓶颈,该模型设计了异步推理管线,将动作预测与电机执行并行化处理,并引入基于记忆缓存的持久化机制与噪声历史增强策略,旨在平衡模型的理解深度与真机控制的响应速度。
目前,LingBot-VA 的模型权重、推理代码已全面开源。(袁宁)
