网易首页 > 网易号 > 正文 申请入驻

小米开源首代机器人大模型公布,更智能

0
分享至

今日,小米对外发布开源 VLA 模型 Xiaomi-Robotics-0,拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力,刷新多项 SOTA。它在现实真机任务中实现了物理智能的泛化 —— 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。


据官方介绍获悉,物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制,Xiaomi-Robotics-0 采用了主流的 Mixture-of-Transformers (MoT) 架构。

视觉语言大脑(VLM): 团队采用了多模态 VLM 大模型作为底座。它负责理解人类的模糊指令(如“请把毛巾叠好”),并从高清视觉输入中捕捉空间关系。

动作执行小脑(Action Expert):为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。


针对大部分 VLA 模型在学动作时往往会“变笨”,失去本身的理解能力的问题。小米通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持强大的物体检测、视觉问答和逻辑推理能力。

VLM 协同训练:首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。

DiT 专项训练:随后冻结 VLM,专注于训练 DiT,学习如何从噪声中恢复出精准的动作序列。在这一阶段,小米去除了 VLM 的离散 Token,完全依赖 KV 特征进行条件生成。通过 DiT 专项训练,模型可以生成高度平滑、精准的的动作序列。


针对推理延迟引发的真机“动作断层”问题,小米团队采用异步推理模式 —— 让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。为进一步强化模型对环境变化的响应敏捷性与运行稳定性,小米引入了:

Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。

Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。


据小米官方介绍,在多维度的测试中,Xiaomi-Robotics-0 展现出优异的表现:

仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 测试中,模型在所有的 Benchmark、30 种模型对比中,均取得了当前最优的结果。

真实挑战: 团队在双臂机器人平台上部署了模型并与行业标杆进行了横向对比。在积木拆解和叠毛巾这种长周期、高度挑战的任务中,机器人展现出了极高的手眼协调性。无论是刚性的积木还是柔性的织物,都能处理得游刃有余。

多模态能力:模型保留了 VLM 本身的多模态理解能力,尤其是在具身更相关的 benchmark 中表现优异,这是之前的 VLA 模型所不具备的。


目前,小米已经宣布将模型进行开源,感兴趣的小伙伴可以体验一下。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么造不出C919发动机,真相远比你想象的更残酷

为什么造不出C919发动机,真相远比你想象的更残酷

难得君
2026-02-11 12:19:46
湖记:东契奇很看重全明星票王,可能象征性打几分钟感谢球迷

湖记:东契奇很看重全明星票王,可能象征性打几分钟感谢球迷

林子说事
2026-02-13 08:40:49
白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

白宫摆下四大必杀局!中国直接逆天,美媒气炸了!

毛豆论道
2026-02-12 02:58:57
赶在春节前,中国加速增兵!高市急着发话,1亿多日本人面临选择

赶在春节前,中国加速增兵!高市急着发话,1亿多日本人面临选择

Ck的蜜糖
2026-02-13 15:20:35
业界25位轻熟女神大盘点!

业界25位轻熟女神大盘点!

孤独的独角兽影视
2026-02-13 10:00:06
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
特朗普:美国人即将迎来史无前例的退税

特朗普:美国人即将迎来史无前例的退税

跟着老李看世界
2026-02-12 13:50:00
还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

家居设计师苏哥
2026-02-13 10:57:27
两个日本巨头,三菱和索尼,突然在中国市场砸下了重注

两个日本巨头,三菱和索尼,突然在中国市场砸下了重注

扶苏聊历史
2026-02-13 13:36:01
欧洲富婆来中国旅游,回国一周后哭诉:瑞士跟中国差距一目了然

欧洲富婆来中国旅游,回国一周后哭诉:瑞士跟中国差距一目了然

而长终
2026-02-12 18:01:30
关于情感凝视的另一种可能

关于情感凝视的另一种可能

疾跑的小蜗牛
2026-02-12 22:09:26
湖北女子感染HPV,回家过年的第一批“受害者”出现了……

湖北女子感染HPV,回家过年的第一批“受害者”出现了……

桌子的生活观
2026-02-12 01:15:30
特斯拉1月中国销量暴跌45%,降至三年来最低水平

特斯拉1月中国销量暴跌45%,降至三年来最低水平

鞭牛士
2026-02-13 08:09:34
多艘战舰接连亮相 带你近距离了解海军“新面孔”

多艘战舰接连亮相 带你近距离了解海军“新面孔”

环球网资讯
2026-02-13 08:37:08
于东来宣布正式退休,60岁手握上亿现金,未来规划曝光引关注

于东来宣布正式退休,60岁手握上亿现金,未来规划曝光引关注

削桐作琴
2026-02-12 19:24:05
赖清德受访,“台独”本质现形

赖清德受访,“台独”本质现形

环球网资讯
2026-02-13 07:03:10
中国战争思维误区:当敌人打到我们国家土地上时,我们才奋起自卫

中国战争思维误区:当敌人打到我们国家土地上时,我们才奋起自卫

南权先生
2026-02-13 15:18:31
蛇年收官日,沪指午后意外失守4100点!发生了什么?

蛇年收官日,沪指午后意外失守4100点!发生了什么?

每经牛眼
2026-02-13 15:43:26
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
他到西安休养,兰空领导对他“不冷不热”,待遇有些困难,靠接济

他到西安休养,兰空领导对他“不冷不热”,待遇有些困难,靠接济

南书房
2026-02-11 12:50:15
2026-02-13 15:59:00
科技美学
科技美学
科技美学
17330文章数 68228关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

教育
手机
时尚
房产
本地

教育要闻

矩形折叠,直角三角形中建立方程,初中中考几何压轴题必考题型

手机要闻

小米澎湃OS 3上线2026马年春节限定水印

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

房产要闻

三亚新机场,又传出新消息!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版