小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑SOTA|动作|模态|sota|真实世界|知名企业|robotics

小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑SOTA

2026-02-12 13:41:34　来源: 机器人前瞻

北京举报

分享至

仿真测试跑赢全球30款竞品。

作者 |李水青

编辑 |漠影

机器人前瞻2月12日报道，今天，小米开源其首代机器人VLA（视觉-语言-动作）大模型——Xiaomi-Robotics-0。

该模型拥有4.7B参数，采用MoT混合架构实现“大脑小脑”协同，在LIBERO、SimplerEnv、CALVIN三大主流仿真基准测试中，包揽所有细分项SOTA（行业最佳）。

在真机评估中，Xiaomi-Robotics-0在叠毛巾、拆乐高等任务中动作连贯、反应灵敏。并且，该模型能在消费级显卡上实现实时推理。

▲将毛巾摊平-叠好

为了训练模型Xiaomi-Robotics-0，小米利用了一个庞大的数据集，包含2亿级机器人轨迹数据与超过8000万个通用视觉-语言数据样本，其中包括338小时乐高拆卸、400小时毛巾折叠的数据。

目前，小米已开源了Xiaomi-Robotics-0的模型权重和完整代码，包括技术报告也可以在下面地址中查看。

技术主页：

https://xiaomi-robotics-0.github.io

开源代码：

https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

模型权重：

https://huggingface.co/XiaomiRobotics

01.

拿下三大主流仿真测试SOTA

拆乐高、叠毛巾都胜任

Xiaomi-Robotics-0在三项仿真基准测试的所有Benchmark、30种模型对比中，均取得了SOTA性能。

具体而言，它在LIBERO上的平均成功率达到98.7%。在SimplerEnv上，其在视觉匹配（85.5%）、视觉聚合（74.7%）和WidowX（79.2%）方面均表现出色。在CALVIN上，它在ABC-D和ABCD-D分割上的平均长度分别达到4.75和4.80。

在VLM基准测试中，其预训练模型与基础预训练VLM的性能相当。Xiaomi-Robotics-0保留了VLM本身的多模态理解能力，尤其是在具身更相关的Benchmark中表现较好，这是之前的很多VLA模型所不具备的。

▲该模型在VLA、VLM的Benchmark以及真实机器人的效果指标

在真实机器人评估中，Xiaomi-Robotics-0在两项具有挑战性的双手机器人操作任务——乐高拆卸和毛巾折叠中，实现了高成功率和强大的吞吐量，手眼协调表现较好。

以下是部分真机运行片段：

▲将大块积木逐步拆成小块

▲主动将多余毛巾放回以进行叠放

02.

采用MoT混合架构

大小脑联动实现精准手眼协同

为了兼顾通用理解与精细控制，Xiaomi-Robotics-0采用了主流的MoT （Mixture-of-Transformers）架构。

该架构包括一个视觉语言大脑（VLM）和一个动作执行小脑（Action Expert）。

视觉语言大脑：团队采用了多模态VLM大模型作为底座，它负责理解人类的模糊指令，如“请把毛巾叠好”，并从高清视觉输入中捕捉空间关系。

动作执行小脑：为了生成高频、平滑的动作，团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作，而是生成一个“动作块”（Action Chunk），并通过流匹配（Flow-matching）技术确保动作的精准度。

▲模型架构及训练方法

这种“大脑+小脑”的组合，让模型既能听懂指令，又能像人类一样，在动作执行时保持极高的物理灵活性。

▲主动灵活调整自身动作

03.

基于2亿级数据训练

分两阶段进化

如何让模型既不丢失常识，又精通“体力活”？

团队的训练利用了一个庞大的数据集，其中包含约2亿个机器人轨迹时间步长，和超过8000万个通用视觉-语言数据样本。机器人数据来源于开源数据集和通过远程操作收集的内部数据，包括338小时的乐高拆卸数据、400小时的毛巾折叠数据。

与此同时，团队还设计了一套训练配方，包括跨模态预训练和后训练两个阶段。

1、跨模态预训练：提高模型动作分布预测能力

大部分VLA模型在学动作时往往会“变笨”，失去本身的理解能力。团队通过多模态与动作数据的混合训练，让模型在学会操作的同时，依然保持较强的物体检测、视觉问答和逻辑推理能力。

VLM协同训练：团队首先引入了Action Proposal机制，强迫VLM模型在理解图像的同时预测多种动作分布。这一步是为了让VLM的特征空间与动作空间对齐，不再仅仅是“纸上谈兵”。

DiT专项训练：随后，团队冻结VLM，专注于训练DiT，学习如何从噪声中恢复出精准的动作序列。这一阶段，团队去除了VLM的离散Token，完全依赖KV特征进行条件生成。通过DiT专项训练，模型可以生成高度平滑、精准的的动作序列。

▲多模态数据与跨本体机器人数据的分布

2、后训练：保障动作连贯流畅

这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题，团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行，从机制上保障动作连贯流畅。

▲异步推理示意图，模型推理延迟不影响真机连续性运行

为进一步强化模型对环境变化的响应敏捷性与运行稳定性，团队引入了：

Clean Action Prefix：将前一时刻预测的动作作为输入，确保动作轨迹在时间维度上是连续的、不抖动的，进一步增加流畅性。

Λ-shape Attention Mask：通过特殊的注意力掩码，强制模型更关注当前的视觉反馈，而不是沉溺于历史惯性。这让机器人在面对环境突发变化时，能够展现出极强的反应性物理智能。

▲团队采用特殊的注意力掩码机制，有效缓解动作惯性

04.

结语：VLA模型加速走向消费级部署

小米此次开源的Xiaomi-Robotics-0采用大小脑分工的MoT混合架构，既保留了VLM的多模态知识储备，又解决了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。

值得关注的是，该模型能在消费级显卡上实现实时推理，具身智能模型的部署门槛正下沉到普通开发者桌面，机器人软件栈的平民化正在加速到来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

小米首代机器人VLA模型开源，雷军把门槛打下来了，消费级显卡可跑SOTA

DeepSeek更新后被吐槽变冷变傻？

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

这张照片背后，是米兰冬奥最催泪的故事

米兰冬奥摘银 谷爱凌再遭美国网友网暴

华莱士母公司退市 疯狂扩张下的食安隐忧

探秘比亚迪巴西工厂 居然是这个画风！

态度原创

下一站是嘉禾望岗，请各位乘客做好哭泣准备

50+女人怎么穿更好看？过来人告诉你答案，越老越美赢麻了

中古雅韵 乐韵伴日常

两个阴影三角形的面积分别是3和9，求长方形面积

男子和女子相亲第五天在泳池亲密事后让他大跌眼镜

男子和女子相亲第五天在泳池亲密事后让他大跌眼镜

米兰冬奥摘银谷爱凌再遭美国网友网暴

华莱士母公司退市疯狂扩张下的食安隐忧

探秘比亚迪巴西工厂居然是这个画风！

中古雅韵乐韵伴日常