网易首页 > 网易号 > 正文 申请入驻

小米开源首代机器人VLA大模型

0
分享至

来源:财联社

据小米技术官微消息,小米2月12日宣布开源Xiaomi-Robotics-0。


据介绍,这是一个拥有47亿参数、兼具视觉语言理解与高性能实时执行能力的开源VLA模型。

小米机器人团队引入Action Proposal机制,强迫VLM模型在理解图像的同时预测多种动作分布。针对推理延迟引发的真机“动作断层”问题,小米机器人团队采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行。

以下为原文(有删减):

小米开源首代机器人 VLA 大模型,刷新多项 SOTA!

在具身智能(Embodied AI)的浪潮中,我们始终在思考一个问题:如何让机器人既有“博学的大脑”,又有“敏捷的身手”?

现有的 VLA(Vision-Language-Action)模型虽然通过大规模参数获得了惊人的泛化能力,但在真实物理世界中,庞大的推理延迟往往让机器人表现得像个“反应迟钝的木头人”。

今天,我们对外发布:Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化——动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。

01

物理智能的钥匙:MoT 混合架构

物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制,Xiaomi-Robotics-0采用了主流的 Mixture-of-Transformers (MoT) 架构。

视觉语言大脑(VLM):

我们采用了多模态 VLM 大模型作为底座。它负责理解人类的模糊指令(如“请把毛巾叠好”),并从高清视觉输入中捕捉空间关系。

动作执行小脑(Action Expert):

为了生成高频、平滑的动作,我们嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。



模型架构及训练方法:(a) VLM多模态与动作混合预训练;(b) DiT专项预训练;(c) 目标任务后训练

这种“大脑+小脑”的组合,让我们的模型既能听懂指令,又能像人类一样,在动作执行时保持极高的物理灵活性。

02

训练秘籍:两阶段的“进化论”

如何让模型既不丢失常识,又精通“体力活”?我们设计了一套严谨的训练配方。

▍跨模态预训练(Cross-Embodiment Pre-training)

大部分 VLA 模型在学动作时往往会“变笨”,失去本身的理解能力。我们通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持强大的物体检测、视觉问答和逻辑推理能力。

VLM 协同训练:

我们首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。

DiT 专项训练:

随后,我们冻结 VLM,专注于训练 DiT, 学习如何从噪声中恢复出精准的动作序列。这一阶段,我们去除了 VLM 的离散 Token,完全依赖 KV 特征进行条件生成。通过 DiT 专项训练,模型可以生成高度平滑、精准的的动作序列。


多模态数据与跨本体机器人数据的分布

▍后训练(Post-training)

这是解锁物理智能的核心路径。针对推理延迟引发的真机“动作断层”问题,我们采用异步推理模式——让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。为进一步强化模型对环境变化的响应敏捷性与运行稳定性,我们引入了:

Clean Action Prefix:

将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。

Λ-shape Attention Mask:

通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。


异步推理示意图,模型推理延迟不影响真机连续性运行


我们采用特殊的注意力掩码机制,有效缓解动作惯性

03

仿真与实战:全面 SOTA

在多维度的测试中,Xiaomi-Robotics-0 展现出优异的表现:

仿真标杆:

在 LIBERO、CALVIN 和 SimplerEnv 测试中,模型在所有的 Benchmark、30种模型对比中,均取得了当前最优的结果。

真实挑战:

我们在双臂机器人平台上部署了模型并与行业标杆进行了横向对比。在积木拆解和叠毛巾这种长周期、高度挑战的任务中,机器人展现出了极高的手眼协调性。无论是刚性的积木还是柔性的织物,都能处理得游刃有余。

多模态能力:

模型保留了 VLM 本身的多模态理解能力,尤其是在具身更相关的 benchmark 中表现优异,这是之前的 VLA 模型所不具备的。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

塞维利亚主席:是我个人阻止拉莫斯回归的,坏人由我来做

懂球帝
2026-02-13 07:26:24
牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

牛肉再次成瞩目!专家发现:肿瘤患者吃牛肉,过不多久或有4好处

展望云霄
2026-02-13 11:19:31
你见过最土的土豪有多土?网友:你这明显是短剧看多了

你见过最土的土豪有多土?网友:你这明显是短剧看多了

带你感受人间冷暖
2026-02-11 11:21:06
梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

梅兰芳二夫人有多美?熬死原配,逼退孟小冬,美得叫人挪不开眼

万物知识圈
2026-01-10 09:14:17
暴跌!内存价格闪崩!

暴跌!内存价格闪崩!

中国半导体论坛
2026-02-12 20:15:38
刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

z千年历史老号
2026-02-05 16:31:39
“都2026年了,怎么还有老登指责年轻人没眼力见呢”

“都2026年了,怎么还有老登指责年轻人没眼力见呢”

雷斯林
2026-02-03 18:57:15
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

梦醉为红颜一笑
2026-02-10 14:52:10
程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

细品名人
2026-02-03 07:48:27
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

懂球帝
2026-02-12 16:45:11
缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸中文网
2026-02-12 13:49:57
一团浆糊的第一次

一团浆糊的第一次

人之情长
2026-02-12 12:00:16
赵露思的脚好有特点

赵露思的脚好有特点

情感大头说说
2026-02-13 10:25:50
美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

美国小伙意外发现自己小时候的寻人启事后懵了,找母亲了解情况,他更凌乱了

英国那些事儿
2026-02-11 23:19:46
挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

小书生吃瓜
2026-02-10 16:57:24
官宣!广州新增一家山姆,选址确定!

官宣!广州新增一家山姆,选址确定!

羊城攻略
2026-02-12 23:04:41
长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

界面新闻
2026-02-12 18:41:33
乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

乌克兰发动今年首次针对俄罗斯炼油工业的重大打击

新浪财经
2026-02-12 04:26:23
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
2026-02-13 14:07:00
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
68059文章数 1012关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

房产
健康
家居
手机
教育

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

转头就晕的耳石症,能开车上班吗?

家居要闻

中古雅韵 乐韵伴日常

手机要闻

新版Siri再度跳票!苹果称2026年上线承诺不变

教育要闻

两个阴影三角形的面积分别是3和9,求长方形面积

无障碍浏览 进入关怀版