小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑|动作|模态|真实世界|知名企业|robotics

小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑

2026-02-12 13:56:21　来源: 机器人前瞻

北京举报

分享至

机器人前瞻（公众号：robot_pro）
作者李水青
编辑漠影

机器人前瞻2月12日报道，今天，小米开源其首代机器人VLA（视觉-语言-动作）大模型——Xiaomi-Robotics-0。

该模型拥有4.7B参数，采用MoT混合架构实现“大脑小脑”协同，在LIBERO、SimplerEnv、CALVIN三大主流仿真基准测试中，包揽所有细分项SOTA（行业最佳）。

在真机评估中，Xiaomi-Robotics-0在叠毛巾、拆乐高等任务中动作连贯、反应灵敏。并且，该模型能在消费级显卡上实现实时推理。

▲将毛巾摊平-叠好

为了训练模型Xiaomi-Robotics-0，小米利用了一个庞大的数据集，包含2亿级机器人轨迹数据与超过8000万个通用视觉-语言数据样本，其中包括338小时乐高拆卸、400小时毛巾折叠的数据。

目前，小米已开源了Xiaomi-Robotics-0的模型权重和完整代码，包括技术报告也可以在下面地址中查看。

技术主页：
https://xiaomi-robotics-0.github.io
开源代码：
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重：
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真测试SOTA，拆乐高、叠毛巾都胜任

Xiaomi-Robotics-0在三项仿真基准测试的所有Benchmark、30种模型对比中，均取得了SOTA性能。

具体而言，它在LIBERO上的平均成功率达到98.7%。在SimplerEnv上，其在视觉匹配（85.5%）、视觉聚合（74.7%）和WidowX（79.2%）方面均表现出色。在CALVIN上，它在ABC-D和ABCD-D分割上的平均长度分别达到4.75和4.80。

在VLM基准测试中，其预训练模型与基础预训练VLM的性能相当。Xiaomi-Robotics-0保留了VLM本身的多模态理解能力，尤其是在具身更相关的Benchmark中表现较好，这是之前的很多VLA模型所不具备的。

▲该模型在VLA、VLM的Benchmark以及真实机器人的效果指标

在真实机器人评估中，Xiaomi-Robotics-0在两项具有挑战性的双手机器人操作任务——乐高拆卸和毛巾折叠中，实现了高成功率和强大的吞吐量，手眼协调表现较好。

以下是部分真机运行片段：

▲将大块积木逐步拆成小块

▲主动将多余毛巾放回以进行叠放

二、采用MoT混合架构，大小脑联动实现精准手眼协同

为了兼顾通用理解与精细控制，Xiaomi-Robotics-0采用了主流的MoT （Mixture-of-Transformers）架构。

该架构包括一个视觉语言大脑（VLM）和一个动作执行小脑（Action Expert）。

视觉语言大脑：团队采用了多模态VLM大模型作为底座，它负责理解人类的模糊指令，如“请把毛巾叠好”，并从高清视觉输入中捕捉空间关系。

动作执行小脑：为了生成高频、平滑的动作，团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作，而是生成一个“动作块”（Action Chunk），并通过流匹配（Flow-matching）技术确保动作的精准度。

▲模型架构及训练方法

这种“大脑+小脑”的组合，让模型既能听懂指令，又能像人类一样，在动作执行时保持极高的物理灵活性。

▲主动灵活调整自身动作

三、基于2亿级数据训练，分两阶段进化

如何让模型既不丢失常识，又精通“体力活”？

团队的训练利用了一个庞大的数据集，其中包含约2亿个机器人轨迹时间步长，和超过8000万个通用视觉-语言数据样本。机器人数据来源于开源数据集和通过远程操作收集的内部数据，包括338小时的乐高拆卸数据、400小时的毛巾折叠数据。

与此同时，团队还设计了一套训练配方，包括跨模态预训练和后训练两个阶段。

1、跨模态预训练：提高模型动作分布预测能力

大部分VLA模型在学动作时往往会“变笨”，失去本身的理解能力。团队通过多模态与动作数据的混合训练，让模型在学会操作的同时，依然保持较强的物体检测、视觉问答和逻辑推理能力。

VLM协同训练：团队首先引入了Action Proposal机制，强迫VLM模型在理解图像的同时预测多种动作分布。这一步是为了让VLM的特征空间与动作空间对齐，不再仅仅是“纸上谈兵”。

DiT专项训练：随后，团队冻结VLM，专注于训练DiT，学习如何从噪声中恢复出精准的动作序列。这一阶段，团队去除了VLM的离散Token，完全依赖KV特征进行条件生成。通过DiT专项训练，模型可以生成高度平滑、精准的的动作序列。

▲多模态数据与跨本体机器人数据的分布

2、后训练：保障动作连贯流畅

这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题，团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行，从机制上保障动作连贯流畅。

▲异步推理示意图，模型推理延迟不影响真机连续性运行

为进一步强化模型对环境变化的响应敏捷性与运行稳定性，团队引入了：

Clean Action Prefix：将前一时刻预测的动作作为输入，确保动作轨迹在时间维度上是连续的、不抖动的，进一步增加流畅性。

Λ-shape Attention Mask：通过特殊的注意力掩码，强制模型更关注当前的视觉反馈，而不是沉溺于历史惯性。这让机器人在面对环境突发变化时，能够展现出极强的反应性物理智能。

▲团队采用特殊的注意力掩码机制，有效缓解动作惯性

结语：VLA模型加速走向消费级部署

小米此次开源的Xiaomi-Robotics-0采用大小脑分工的MoT混合架构，既保留了VLM的多模态知识储备，又解决了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。

值得关注的是，该模型能在消费级显卡上实现实时推理，具身智能模型的部署门槛正下沉到普通开发者桌面，机器人软件栈的平民化正在加速到来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑

独家探访蔡磊：答不完的卷子 死磕最后一程

泰国曼谷飞重庆航班延误17个小时 上百人滞留机场过夜

泰国曼谷飞重庆航班延误17个小时 上百人滞留机场过夜

这张照片背后，是米兰冬奥最催泪的故事

米兰冬奥摘银 谷爱凌再遭美国网友网暴

华莱士母公司退市 疯狂扩张下的食安隐忧

探秘比亚迪巴西工厂 居然是这个画风！

态度原创

三亚新机场，又传出新消息！

下一站是嘉禾望岗，请各位乘客做好哭泣准备

于右任又一真迹出土！这才是当代“真草圣”

春节“来西岸接福”，京津冀文化市集一站式集齐年味

独家探访蔡磊：答不完的卷子死磕最后一程

泰国曼谷飞重庆航班延误17个小时上百人滞留机场过夜

泰国曼谷飞重庆航班延误17个小时上百人滞留机场过夜

米兰冬奥摘银谷爱凌再遭美国网友网暴

华莱士母公司退市疯狂扩张下的食安隐忧

探秘比亚迪巴西工厂居然是这个画风！