网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

小米打通智驾和具身大模型，然后开源了

2025-11-26 13:24:56　来源: 量子位

北京举报

0

分享至

Henry 发自凹非寺
量子位 | 公众号 QbitAI

全球首个自驾+机器人统一基座模型开源了！

针对自驾与具身操作场景的知识迁移难题，小米汽车陈龙团队提出并开源了全球首个打通这两大领域的跨具身（X - Embodied）基座模型——MiMo-Embodied

MiMo-Embodied基于MiMo-VL架构，通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集，并采用包含思维链（CoT）和强化学习（RL）的渐进式四阶段训练策略，有效打破了室内操作与户外驾驶之间的领域鸿沟。

在实测效果上，MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上均超越了现有的专用模型及通用模型，实现了跨领域的最先进（SOTA）性能。

无论是开车的环境感知、规划，还是机器人的拿取、导航，主打一个我全都要。

具身与智驾，小米全都要！

在以往具身/自驾的VLM领域中，往往存在以下问题：

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型（VLMs）大多专注于单一领域（仅室内任务或仅户外驾驶），缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这，也带来了领域差距与迁移困难

具身智能侧重于室内操作，而自动驾驶侧重于户外道路，两者存在显著的领域差距（Domain Gap），阻碍了能力的跨领域迁移。

另一方面则是评估体系缺失，即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战，MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中，以整合模型的跨具身能力。

如上图所示，

MiMo-Embodied架构由以下三个部分组成：

用于编码视觉输入的 Vision Transformer (ViT)：模型使用ViT来编码各种类型的视觉输入，包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。
一个投影器（projector）：使用多层感知机（MLP）作为投影器（Projector），将视觉Token映射到与大语言模型对齐的潜在空间。
负责文本理解和推理的LLM：LLM作为核心组件，负责理解文本指令并结合视觉信息进行推理，生成连贯且上下文相关的响应。

由此，通过无缝集成视觉和文本领域，MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来，为了实现跨领域的统一能力，论文提出了一套系统的数据构建和分阶段训练策略：

首先在数据方面，训练数据涵盖了通用多模态理解、具身 AI（功能性预测、规划、空间理解）和自动驾驶（感知、预测、规划）三个维度的多模态数据：

通用数据：基于MiMo-VL语料库，包含图像、视频、长文本等，长文档和合成推理数据，确保广泛覆盖感知、推理和交互能力。
具身智能数据：涵盖可供性预测（Affordance Prediction）、高层任务规划和空间理解，整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。
自动驾驶数据：涵盖环境感知、状态预测和驾驶规划，整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。

基于上述构建的数据集，研究又开发了一种四阶段训练策略

基于MiMo-VL，研究引入了具身智能和自动驾驶方面的专门监督，最终通过思维链微调和强化学习实现高级推理能力。

这一策略有助于模型建立在先前获得的能力之上，从而在具身交互和自动驾驶领域实现稳健的性能。

阶段1：具身智能监督微调 (Embodied AI Supervised Fine-tuning)：结合通用数据和具身数据，建立核心的视觉语言理解、具身推理能力。

阶段2：自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning)：在阶段1的基础上，加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析。

阶段3：思维链推理微调 (CoT Supervised Fine-tuning)：使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力，例如风险评估和行为合理性解释。

阶段4：强化学习微调 (RL Fine-Tuning)：使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性（如选择题匹配、IoU计算）设计奖励信号，进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能，研究分别在定性和定量两层面进行评估，定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估，从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能，突出了其在复杂机器人和自动驾驶场景中的部署，并提供了其将习得能力转化为有效性能的具体证据。

基准测试上的定量比较

首先，在具身能力方面，研究在三个核心领域进行了全面评估：可供性预测、任务规划和空间理解。

结果表明，MiMo-Embodied 取得了具有竞争力的结果，与通用多模态模型和专用具身模型相比，在可供性预测和空间理解方面表现出特别的优势。

其次，在自动驾驶能力方面，研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能，涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。

实验结果显示，MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能，在全景语义理解任务中展示了最先进的结果，同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。

现实世界任务的定性评估

首先，为了验证MiMo-Embodied 在复杂交互环境中的实际效用，研究评估了其在两个基本下游应用中的性能：具身导航和操作。

在具身导航中，相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0，MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。

在操作任务中，MiMo-Embodied同样展现出强大的可供性和空间推理能力。

在自动驾驶能力上，研究首先在具有挑战性的NAVSIM上确定性能以进行标准化比较，然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务，包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下，模型都应感知道路上下文，整合自车状态和导航意图，并做出连贯的决策。

此外，MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是，在转弯、绕开障碍物和变道等复杂、交互式操作中，性能提升最为显著。

在最后，论文表示还将基于MiMo-Embodied模型的能力，探索具身智能视觉-语言-动作（VLA）模型，以增强复杂环境中的交互，通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文的一作是郝孝帅博士。他于今年8月加入小米汽车，在陈龙博士的指导下，从事具身多模态大模型方向的研究。

郝孝帅博士毕业于中国科学院大学信息工程研究所。此前，他曾在北京智源研究院、三星、亚马逊等机构工作。

这篇论文的project leader是小米智能驾驶的首席科学家陈龙博士，他此前就职于英国AI独角兽公司Wayve，主导新一代端到端自动驾驶VLA模型的研发。

更早前，他还以研究工程师身份加入Lyft，牵头车队学习项目，通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接： https://arxiv.org/abs/2511.16518

GitHub： https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface： https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

3步推理生成加速20+倍！CoLT教会多模态大模型用「潜思维链」思考

机器之心Pro 2026-07-15 10:08:27
0 跟贴 0
WAIC 2026落幕，海康威视首秀留下三个信号

智东西 2026-07-22 19:06:56
0 跟贴 0

对话超擎数智CEO唐春峰：AI产业竞争正在从模型训练走向推理落地，全栈方案加速企业智能化应用

36氪 2026-07-22 16:12:05
0 跟贴 0

具身智能还在“前GPT时代”

钛媒体APP 2026-07-20 11:02:11
3 跟贴 3
推理云赛道一个月吸金55亿美元，AI基建长出新的中间层？

DeepTech深科技 2026-07-22 13:16:54
0 跟贴 0

多模态迎来「架构换代」：商汤连出两张牌，划定大一统基座新标准

机器之心Pro 2026-07-21 18:09:31
0 跟贴 0

物理AI的闭环，终于有人跑通了：日冕+远图万台级部署计划官宣

量子位 2026-07-22 10:48:36
0 跟贴 0
经得起观众「刁难」，扛得住宁德「检验」：WAIC后重新认识苏度

机器之心Pro 2026-07-21 17:49:48
0 跟贴 0

中国黑马甩出5个模型、17项全球第一！自进化体系杀进具身智能核心圈

新智元 2026-07-22 19:12:21
0 跟贴 0
端侧觉醒：当AI长出"身体"，热闹之后拼什么？｜ WAIC2026

钛媒体APP 2026-07-22 23:37:07
0 跟贴 0
先锋青年说圆满收官｜WAIC人才浓度「天花板」，新锐力量共探AI下半场

机器之心Pro 2026-07-22 10:08:27
0 跟贴 0
为什么让 AI 理解世界的前提是读懂因果？

机器之心Pro 2026-07-21 16:04:45
0 跟贴 0
打通感知-理解-交互链路，全栈视频理解大模型VideoChat3开源了

机器之心Pro 2026-07-22 13:31:44
1 跟贴 1
全球最高自由度！他们把人类身体「像素级」复刻了

新智元 2026-07-22 23:46:48
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
刚刚，全球三大AI包揽IMO满分！击败99%人类

新智元 2026-07-22 23:45:00
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
大模型的魅力在于突发涌现的能力

量子位 2025-12-11 03:38:02
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
AI如何从聊天问答工具转向可追溯、可决策的真实医疗系统

量子位 2026-05-21 08:04:06
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
造价过亿的黑色机柜，站上C位

财天COVER 2026-07-22 17:59:25
0 跟贴 0
小米口碑为何变了？这个车主不是一般人啊，逻辑思维太强了！

卡点音乐游戏 2026-07-22 13:37:56
0 跟贴 0
小米SU7在充电桩充电，结果因为太烫，导致充电插头拔不下来！

搞笑生活君 2026-07-18 19:26:03
22 跟贴 22
雷军千万挖角的天才少女，她根本就不是天才

雷科技 2025-11-12 21:45:22
42 跟贴 42
小米智能门锁上半年销量第二将门锁变为全屋智能交互枢纽

CNMO科技 2026-07-22 07:45:53
2 跟贴 2
数十亿美元！微软敲定和大模型独角兽算力合作

智东西 2026-07-22 23:26:36
0 跟贴 0
小米新机MIX Fold 5将对标iPhone Ultra 首发自研3nm玄戒O3、售价或万元起

快科技 2026-07-20 01:21:38
0 跟贴 0
小米澎程一线市场数据出炉：六成客户押注30万以上起售

CNMO科技 2026-07-22 18:41:37
1 跟贴 1
小米上调手机全年出货目标至1.1亿部

泡泡网 2026-07-21 18:07:59
4 跟贴 4
中国充电宝6月线上TOP10出炉小米卖爆销量、销额双第一

快科技 2026-07-20 01:19:19
9 跟贴 9
直击WAIC 2026：汽车产业链企业加速涌入具身智能赛道

蓝鲸新闻 2026-07-20 18:44:24
0 跟贴 0
骁龙8系芯片！小米平板9通过3C认证：内置9720mAh大电池

VDGER唯界 2026-07-21 21:23:13
0 跟贴 0

毛主席最低谷的时候，是被他亲手带出来的团队，踢出了局

毛主席最低谷的时候，是被他亲手带出来的团队，踢出了局

时光流转追梦人

2026-07-22 18:51:04

腾势Z9S车长近5米1轴距超3米，比小米SU7大一号

腾势Z9S车长近5米1轴距超3米，比小米SU7大一号

爱卡汽车

2026-07-18 13:07:13

韩红基金会救护车在西藏“越野爬坡”？回应来了

韩红基金会救护车在西藏“越野爬坡”？回应来了

观察者网

2026-07-21 19:50:08

明日大暑，宁可不吃肉，也要多吃“大暑三宝”，清热解暑又补水

明日大暑，宁可不吃肉，也要多吃“大暑三宝”，清热解暑又补水

房产衫哥

2026-07-22 18:19:50

意大利足球历史巨星TOP20，一人压巴乔第一，皮尔洛无缘前十

意大利足球历史巨星TOP20，一人压巴乔第一，皮尔洛无缘前十

林子说事

2026-07-22 18:38:05

军阀张宗昌处决逃跑士兵，写处决文书写不出毙字，想把枪毙改成打军棍，偏偏棍字也写不来，索性善心大发当场释放逃兵

军阀张宗昌处决逃跑士兵，写处决文书写不出毙字，想把枪毙改成打军棍，偏偏棍字也写不来，索性善心大发当场释放逃兵

磊子讲史

2026-07-16 19:36:57

心眼很坏的人，身上多半有这5个特征，尽量不要深交

心眼很坏的人，身上多半有这5个特征，尽量不要深交

有态度网友19Dsym

2026-07-22 01:16:04

四川本轮高温天气为何持续时间长？何时缓解？专家解读→

四川本轮高温天气为何持续时间长？何时缓解？专家解读→

环球网资讯

2026-07-22 15:29:28

歌曲《黄挣窝塞林牢木》上热搜，网友好奇这歌怎么过审

歌曲《黄挣窝塞林牢木》上热搜，网友好奇这歌怎么过审

映射生活的身影

2026-07-22 18:24:02

睡前默念这5个字，百岁高僧开示：这是最简单的“修心聚能”法

睡前默念这5个字，百岁高僧开示：这是最简单的“修心聚能”法

温情邮局

2026-03-31 09:34:25

关晓彤分手后爆美！新剧穿搭一套比一套种草，小白裙+细高跟这套优雅挺拔如白天鹅！

关晓彤分手后爆美！新剧穿搭一套比一套种草，小白裙+细高跟这套优雅挺拔如白天鹅！

她读

2026-07-22 15:16:15

藏不住了！相比败光邹市明2亿家底，更可恨的是，冉莹颖不配为人母

藏不住了！相比败光邹市明2亿家底，更可恨的是，冉莹颖不配为人母

观察者海风

2026-07-22 19:43:09

趁你病要你命！北约参战，澳大利亚参战，阿联酋参战，伊朗遭围殴

趁你病要你命！北约参战，澳大利亚参战，阿联酋参战，伊朗遭围殴

小先生笔记

2026-07-18 08:55:41

上将邓华挨批调任四川，众人落井下石，一位中将为何会伸手援助？

上将邓华挨批调任四川，众人落井下石，一位中将为何会伸手援助？

扬平说史

2026-07-22 23:05:11

上海暴雨致街道发洪水被淹，国际大都市排水这么差？换谁都一样！

上海暴雨致街道发洪水被淹，国际大都市排水这么差？换谁都一样！

李将平老师

2026-07-22 10:45:20

三星Galaxy Z Fold8 Ultra国行版售价公布：14999元起

三星Galaxy Z Fold8 Ultra国行版售价公布：14999元起

界面新闻

2026-07-22 22:26:42

4000万工程10万干，“先富起来”的是谁？

4000万工程10万干，“先富起来”的是谁？

布衣乱弹

2026-07-20 07:41:19

湖南卫视主持人“张雅琪已婚”上热搜，有网友据相关照片称其丈夫为湖南常德连锁烘焙品牌“金萝莎”二代，两人曾共同持股两家公司

湖南卫视主持人“张雅琪已婚”上热搜，有网友据相关照片称其丈夫为湖南常德连锁烘焙品牌“金萝莎”二代，两人曾共同持股两家公司

大风新闻

2026-07-21 21:56:17

申花所在区最强对手成都被淘汰！他们也是足协杯决赛热门

申花所在区最强对手成都被淘汰！他们也是足协杯决赛热门

80后体育大蜀黍

2026-07-22 18:16:21

邹市明巅峰专访画面出圈！冉莹颖全程调整坐姿一心展示绿色高跟鞋

邹市明巅峰专访画面出圈！冉莹颖全程调整坐姿一心展示绿色高跟鞋

阿废冷眼观察所

2026-07-22 00:08:16

追踪人工智能动态

13001文章数 176523关注度

往期回顾全部

科技要闻

马斯克看笑了：谷歌什么都有偏偏没最强AI

头条要闻

自驾新能源汽车跨境突然遭远程锁车30多小时车主发声

头条要闻

自驾新能源汽车跨境突然遭远程锁车30多小时车主发声

体育要闻

阿根廷的亚军：单核足球的极限？

娱乐要闻

47岁汤唯宣布二胎产子大女儿10岁

财经要闻

宜家出售八城"蓝盒子" 30年大店逻辑生变

汽车要闻

智能舒适却依旧硬核泰钽700仍是台与众不同的硬派SUV

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

旅游

数码

亲子

家居

他不是“族长”，是我们的青春

旅游要闻

27公里狂野自驾！清远长隆万兽奔腾，矿坑重生变世界级乐园

数码要闻

三星Galaxy Watch Ultra2发布：钛金属机身+60小时长续航 5299元

亲子要闻

先做买只炸毛蛋的好朋友还是先做丑蛋的家人？

家居要闻

2026建博会(广州) 公装联探展交流活动

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版