网易首页 > 网易号 > 正文 申请入驻

小米首代机器人VLA模型开源,雷军把门槛打下来了,消费级显卡可跑SOTA

0
分享至



仿真测试跑赢全球30款竞品。

作者 |李水青

编辑 |漠影

机器人前瞻2月12日报道,今天,小米开源其首代机器人VLA(视觉-语言-动作)大模型——Xiaomi-Robotics-0。

该模型拥有4.7B参数,采用MoT混合架构实现“大脑小脑”协同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基准测试中,包揽所有细分项SOTA(行业最佳)。

在真机评估中,Xiaomi-Robotics-0在叠毛巾、拆乐高等任务中动作连贯、反应灵敏。并且,该模型能在消费级显卡上实现实时推理。


▲将毛巾摊平-叠好

为了训练模型Xiaomi-Robotics-0,小米利用了一个庞大的数据集,包含2亿级机器人轨迹数据与超过8000万个通用视觉-语言数据样本,其中包括338小时乐高拆卸、400小时毛巾折叠的数据。

目前,小米已开源了Xiaomi-Robotics-0的模型权重和完整代码,包括技术报告也可以在下面地址中查看。

技术主页:

https://xiaomi-robotics-0.github.io

开源代码:

https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

模型权重:

https://huggingface.co/XiaomiRobotics

01.

拿下三大主流仿真测试SOTA

拆乐高、叠毛巾都胜任

Xiaomi-Robotics-0在三项仿真基准测试的所有Benchmark、30种模型对比中,均取得了SOTA性能。

具体而言,它在LIBERO上的平均成功率达到98.7%。在SimplerEnv上,其在视觉匹配(85.5%)、视觉聚合(74.7%)和WidowX(79.2%)方面均表现出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均长度分别达到4.75和4.80。

在VLM基准测试中,其预训练模型与基础预训练VLM的性能相当。Xiaomi-Robotics-0保留了VLM本身的多模态理解能力,尤其是在具身更相关的Benchmark中表现较好,这是之前的很多VLA模型所不具备的。


▲该模型在VLA、VLM的Benchmark以及真实机器人的效果指标

在真实机器人评估中,Xiaomi-Robotics-0在两项具有挑战性的双手机器人操作任务——乐高拆卸和毛巾折叠中,实现了高成功率和强大的吞吐量,手眼协调表现较好。

以下是部分真机运行片段:


▲将大块积木逐步拆成小块


▲主动将多余毛巾放回以进行叠放

02.

采用MoT混合架构

大小脑联动实现精准手眼协同

为了兼顾通用理解与精细控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架构

该架构包括一个视觉语言大脑(VLM)和一个动作执行小脑(Action Expert)。

视觉语言大脑:团队采用了多模态VLM大模型作为底座,它负责理解人类的模糊指令,如“请把毛巾叠好”,并从高清视觉输入中捕捉空间关系。

动作执行小脑:为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。


▲模型架构及训练方法

这种“大脑+小脑”的组合,让模型既能听懂指令,又能像人类一样,在动作执行时保持极高的物理灵活性。


▲主动灵活调整自身动作

03.

基于2亿级数据训练

分两阶段进化

如何让模型既不丢失常识,又精通“体力活”?

团队的训练利用了一个庞大的数据集,其中包含约2亿个机器人轨迹时间步长,和超过8000万个通用视觉-语言数据样本。机器人数据来源于开源数据集和通过远程操作收集的内部数据,包括338小时的乐高拆卸数据、400小时的毛巾折叠数据。

与此同时,团队还设计了一套训练配方,包括跨模态预训练和后训练两个阶段。

1、跨模态预训练:提高模型动作分布预测能力

大部分VLA模型在学动作时往往会“变笨”,失去本身的理解能力。团队通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持较强的物体检测、视觉问答和逻辑推理能力。

VLM协同训练:团队首先引入了Action Proposal机制,强迫VLM模型在理解图像的同时预测多种动作分布。这一步是为了让VLM的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。

DiT专项训练:随后,团队冻结VLM,专注于训练DiT, 学习如何从噪声中恢复出精准的动作序列。这一阶段,团队去除了VLM的离散Token,完全依赖KV特征进行条件生成。通过DiT专项训练,模型可以生成高度平滑、精准的的动作序列。


▲多模态数据与跨本体机器人数据的分布

2、后训练:保障动作连贯流畅

这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题,团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。


▲异步推理示意图,模型推理延迟不影响真机连续性运行

为进一步强化模型对环境变化的响应敏捷性与运行稳定性,团队引入了:

Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。

Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。


▲团队采用特殊的注意力掩码机制,有效缓解动作惯性

04.

结语:VLA模型加速走向消费级部署

小米此次开源的Xiaomi-Robotics-0采用大小脑分工的MoT混合架构,既保留了VLM的多模态知识储备,又解决了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。

值得关注的是,该模型能在消费级显卡上实现实时推理,具身智能模型的部署门槛正下沉到普通开发者桌面,机器人软件栈的平民化正在加速到来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

懂球帝
2026-02-13 07:26:24
牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

展望云霄
2026-02-13 11:19:31
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

万物知识圈
2026-01-10 09:14:17
暴跌!内存价格闪崩!

暴跌!内存价格闪崩!

中国半导体论坛
2026-02-12 20:15:38
刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

z千年历史老号
2026-02-05 16:31:39
“都2026年了,怎么还有老登指责年轻人没眼力见呢”

“都2026年了,怎么还有老登指责年轻人没眼力见呢”

雷斯林
2026-02-03 18:57:15
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

细品名人
2026-02-03 07:48:27
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

懂球帝
2026-02-12 16:45:11
缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸中文网
2026-02-12 13:49:57
一团浆糊的第一次

一团浆糊的第一次

人之情长
2026-02-12 12:00:16
赵露思的脚好有特点

赵露思的脚好有特点

情感大头说说
2026-02-13 10:25:50
美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

英国那些事儿
2026-02-11 23:19:46
挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

小书生吃瓜
2026-02-10 16:57:24
官宣!广州新增一家山姆,选址确定!

官宣!广州新增一家山姆,选址确定!

羊城攻略
2026-02-12 23:04:41
长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

界面新闻
2026-02-12 18:41:33
乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

新浪财经
2026-02-12 04:26:23
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
2026-02-13 14:07:00
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
354文章数 7关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

本地
时尚
家居
教育
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

家居要闻

中古雅韵 乐韵伴日常

教育要闻

两个阴影三角形的面积分别是3和9,求长方形面积

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版