网易首页 > 网易号 > 正文 申请入驻

小米首代机器人VLA模型开源,雷军把门槛打下来了,消费级显卡可跑

0
分享至


机器人前瞻(公众号:robot_pro)
作者 李水青
编辑 漠影

机器人前瞻2月12日报道,今天,小米开源其首代机器人VLA(视觉-语言-动作)大模型——Xiaomi-Robotics-0。

该模型拥有4.7B参数,采用MoT混合架构实现“大脑小脑”协同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基准测试中,包揽所有细分项SOTA(行业最佳)。

在真机评估中,Xiaomi-Robotics-0在叠毛巾、拆乐高等任务中动作连贯、反应灵敏。并且,该模型能在消费级显卡上实现实时推理。


▲将毛巾摊平-叠好

为了训练模型Xiaomi-Robotics-0,小米利用了一个庞大的数据集,包含2亿级机器人轨迹数据与超过8000万个通用视觉-语言数据样本,其中包括338小时乐高拆卸、400小时毛巾折叠的数据。

目前,小米已开源了Xiaomi-Robotics-0的模型权重和完整代码,包括技术报告也可以在下面地址中查看。

技术主页:
https://xiaomi-robotics-0.github.io
开源代码:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重:
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真测试SOTA,拆乐高、叠毛巾都胜任

Xiaomi-Robotics-0在三项仿真基准测试的所有Benchmark、30种模型对比中,均取得了SOTA性能。

具体而言,它在LIBERO上的平均成功率达到98.7%。在SimplerEnv上,其在视觉匹配(85.5%)、视觉聚合(74.7%)和WidowX(79.2%)方面均表现出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均长度分别达到4.75和4.80。

在VLM基准测试中,其预训练模型与基础预训练VLM的性能相当。Xiaomi-Robotics-0保留了VLM本身的多模态理解能力,尤其是在具身更相关的Benchmark中表现较好,这是之前的很多VLA模型所不具备的。


▲该模型在VLA、VLM的Benchmark以及真实机器人的效果指标

在真实机器人评估中,Xiaomi-Robotics-0在两项具有挑战性的双手机器人操作任务——乐高拆卸和毛巾折叠中,实现了高成功率和强大的吞吐量,手眼协调表现较好。

以下是部分真机运行片段:


▲将大块积木逐步拆成小块


▲主动将多余毛巾放回以进行叠放

二、采用MoT混合架构,大小脑联动实现精准手眼协同

为了兼顾通用理解与精细控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架构

该架构包括一个视觉语言大脑(VLM)和一个动作执行小脑(Action Expert)。

视觉语言大脑:团队采用了多模态VLM大模型作为底座,它负责理解人类的模糊指令,如“请把毛巾叠好”,并从高清视觉输入中捕捉空间关系。

动作执行小脑:为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。


▲模型架构及训练方法

这种“大脑+小脑”的组合,让模型既能听懂指令,又能像人类一样,在动作执行时保持极高的物理灵活性。


▲主动灵活调整自身动作

三、基于2亿级数据训练,分两阶段进化

如何让模型既不丢失常识,又精通“体力活”?

团队的训练利用了一个庞大的数据集,其中包含约2亿个机器人轨迹时间步长,和超过8000万个通用视觉-语言数据样本。机器人数据来源于开源数据集和通过远程操作收集的内部数据,包括338小时的乐高拆卸数据、400小时的毛巾折叠数据。

与此同时,团队还设计了一套训练配方,包括跨模态预训练和后训练两个阶段。

1、跨模态预训练:提高模型动作分布预测能力

大部分VLA模型在学动作时往往会“变笨”,失去本身的理解能力。团队通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持较强的物体检测、视觉问答和逻辑推理能力。

VLM协同训练:团队首先引入了Action Proposal机制,强迫VLM模型在理解图像的同时预测多种动作分布。这一步是为了让VLM的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。

DiT专项训练:随后,团队冻结VLM,专注于训练DiT, 学习如何从噪声中恢复出精准的动作序列。这一阶段,团队去除了VLM的离散Token,完全依赖KV特征进行条件生成。通过DiT专项训练,模型可以生成高度平滑、精准的的动作序列。


▲多模态数据与跨本体机器人数据的分布

2、后训练:保障动作连贯流畅

这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题,团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。


▲异步推理示意图,模型推理延迟不影响真机连续性运行

为进一步强化模型对环境变化的响应敏捷性与运行稳定性,团队引入了:

Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。

Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。


▲团队采用特殊的注意力掩码机制,有效缓解动作惯性

结语:VLA模型加速走向消费级部署

小米此次开源的Xiaomi-Robotics-0采用大小脑分工的MoT混合架构,既保留了VLM的多模态知识储备,又解决了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。

值得关注的是,该模型能在消费级显卡上实现实时推理,具身智能模型的部署门槛正下沉到普通开发者桌面,机器人软件栈的平民化正在加速到来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵丽颖登上热搜啦!谁也没想到

赵丽颖登上热搜啦!谁也没想到

手工制作阿歼
2026-02-13 17:10:58
立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

吴欣纯Deborah
2026-02-12 14:15:05
不出意外的话,中国未来超过一半人口,将会流入到这些地方

不出意外的话,中国未来超过一半人口,将会流入到这些地方

社会日日鲜
2026-02-11 14:04:49
一万人中,能有多少人健康到75岁?好到多少岁算达标?告诉你实话

一万人中,能有多少人健康到75岁?好到多少岁算达标?告诉你实话

健康之光
2026-01-17 15:55:06
老板都是怎么把自己生意干黄的?网友:29.7收30,三个月不到就黄了

老板都是怎么把自己生意干黄的?网友:29.7收30,三个月不到就黄了

另子维爱读史
2026-02-02 21:22:54
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
差点退出中国的山姆“亲爹”,彻底开窍了

差点退出中国的山姆“亲爹”,彻底开窍了

金错刀
2026-02-12 18:36:00
让人眼红啊!上海网友晒年终奖到账99210元,称比预想的要多得多

让人眼红啊!上海网友晒年终奖到账99210元,称比预想的要多得多

火山詩话
2026-02-13 11:12:10
没上映就拿下4个第一,我感慨:春节档未至,冠军就定了

没上映就拿下4个第一,我感慨:春节档未至,冠军就定了

白公子探剧
2026-02-13 16:45:40
我出轨后妻子再也不许我碰她,我以为她嫌脏,直到看见那张体检单

我出轨后妻子再也不许我碰她,我以为她嫌脏,直到看见那张体检单

千秋历史
2026-02-11 22:08:22
外媒:被曝与爱泼斯坦有瓜葛后,高盛首席律师宣布6月底离职

外媒:被曝与爱泼斯坦有瓜葛后,高盛首席律师宣布6月底离职

环球网资讯
2026-02-13 12:50:47
湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

谈史论天地
2026-02-10 16:40:10
战火一旦爆发,中国将会到达无人知晓的地步

战火一旦爆发,中国将会到达无人知晓的地步

执笔写思念
2026-02-11 21:03:02
真的挺不住了!巴拿马突然改口,港口可以还给中国,但有一个条件

真的挺不住了!巴拿马突然改口,港口可以还给中国,但有一个条件

古史青云啊
2026-02-13 16:47:20
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
罗斯托夫助教:浙江队的动作非常粗野,他们的教练最会挑事

罗斯托夫助教:浙江队的动作非常粗野,他们的教练最会挑事

懂球帝
2026-02-13 15:44:08
从“毛姐”到无人问津:她曾坐拥14亿,如今饭店周末仅两三桌客人

从“毛姐”到无人问津:她曾坐拥14亿,如今饭店周末仅两三桌客人

牛牛叨史
2026-02-05 22:46:34
中国男篮冲击2连胜!郭士强启用双塔,徐昕上演首秀,央视直播

中国男篮冲击2连胜!郭士强启用双塔,徐昕上演首秀,央视直播

体坛瞎白话
2026-02-13 09:14:45
人不是高达,拆了长不出来

人不是高达,拆了长不出来

平原公子
2026-01-23 19:27:46
56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

娱乐领航家
2026-02-12 23:00:04
2026-02-13 17:52:49
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
355文章数 7关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

泰国曼谷飞重庆航班延误17个小时 上百人滞留机场过夜

头条要闻

泰国曼谷飞重庆航班延误17个小时 上百人滞留机场过夜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

房产
本地
艺术
旅游
公开课

房产要闻

三亚新机场,又传出新消息!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

艺术要闻

于右任又一真迹出土!这才是当代“真草圣”

旅游要闻

春节“来西岸接福”,京津冀文化市集一站式集齐年味

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版