网易首页 > 网易号 > 正文 申请入驻

小米打通智驾和具身大模型,然后开源了

0
分享至

Henry 发自 凹非寺
量子位 | 公众号 QbitAI

全球首个自驾+机器人统一基座模型开源了!

针对自驾与具身操作场景的知识迁移难题,小米汽车陈龙团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied



MiMo-Embodied基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。



无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

具身与智驾,小米全都要!

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战,MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。



如上图所示,

MiMo-Embodied架构由以下三个部分组成:

  • 用于编码视觉输入的 Vision Transformer (ViT):模型使用ViT来编码各种类型的视觉输入,包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。
  • 一个投影器(projector): 使用多层感知机(MLP)作为投影器(Projector),将视觉Token映射到与大语言模型对齐的潜在空间。
  • 负责文本理解和推理的LLM:LLM作为核心组件,负责理解文本指令并结合视觉信息进行推理,生成连贯且上下文相关的响应。

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:



首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

  • 通用数据:基于MiMo-VL语料库,包含图像、视频、长文本等,长文档和合成推理数据,确保广泛覆盖感知、推理和交互能力。
  • 具身智能数据:涵盖可供性预测(Affordance Prediction)、高层任务规划和空间理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。
  • 自动驾驶数据:涵盖环境感知、状态预测和驾驶规划,整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。



阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。



结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。



其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。



实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。



现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。



在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。



在自动驾驶能力上,研究首先在具有挑战性的NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。



此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。



在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文的一作是郝孝帅博士。他于今年8月加入小米汽车,在陈龙博士的指导下,从事具身多模态大模型方向的研究。

郝孝帅博士毕业于中国科学院大学信息工程研究所。此前,他曾在北京智源研究院、三星、亚马逊等机构工作。



这篇论文的project leader是小米智能驾驶的首席科学家陈龙博士,他此前就职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。



更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不用截机也不用包围,赖清德回程的路,可能比出来时更难走

不用截机也不用包围,赖清德回程的路,可能比出来时更难走

光辉与阴暗
2026-05-03 20:42:50
骑士主场击败猛龙 4:3涉险过关 赛后评分: 哈登、米神都不如他高

骑士主场击败猛龙 4:3涉险过关 赛后评分: 哈登、米神都不如他高

小徐讲八卦
2026-05-04 10:56:09
突发!英国女网红违规入场被安保架离,吴宜泽世锦赛第2次被干扰

突发!英国女网红违规入场被安保架离,吴宜泽世锦赛第2次被干扰

刘姚尧的文字城堡
2026-05-04 08:19:32
离婚率 58% 创历史新高,中国式婚姻正在经历前所未有的冲击

离婚率 58% 创历史新高,中国式婚姻正在经历前所未有的冲击

番外行
2026-04-03 08:47:29
高铁上主动帮女生放行李的男人,真的都是性压抑的恋物癖吗?

高铁上主动帮女生放行李的男人,真的都是性压抑的恋物癖吗?

北欧模式
2026-05-04 12:32:37
郭涛大理补办婚礼,小石头兄妹当花童,李燃穿婚纱超美

郭涛大理补办婚礼,小石头兄妹当花童,李燃穿婚纱超美

云深不知在何处
2026-05-03 22:15:42
美国真的衰落了?

美国真的衰落了?

黑噪音
2026-05-03 11:34:23
哈登打破抢七宿命,坎宁安1-3逆转炼出真金

哈登打破抢七宿命,坎宁安1-3逆转炼出真金

只关于篮球
2026-05-04 13:04:06
心理学揭秘:一个人对家人暴躁易怒,对外人却温和有礼,并非天性冷血,真正原因藏在这两点深层心理里

心理学揭秘:一个人对家人暴躁易怒,对外人却温和有礼,并非天性冷血,真正原因藏在这两点深层心理里

心理观察局
2026-05-02 06:59:03
乌方报告:中国技术进入乌克兰被占区,俄用基站和人民币稳住控制

乌方报告:中国技术进入乌克兰被占区,俄用基站和人民币稳住控制

桂系007
2026-05-04 04:24:02
特朗普:美国将于中东地区4日上午启动一项行动 引导被困霍尔木兹海峡船只驶离

特朗普:美国将于中东地区4日上午启动一项行动 引导被困霍尔木兹海峡船只驶离

财联社
2026-05-04 05:04:04
不跟郑丽文“3800+N”,蓝营地方诸侯纷纷表态

不跟郑丽文“3800+N”,蓝营地方诸侯纷纷表态

郭茂辰海峡传真
2026-05-03 21:17:55
足坛一夜动态:国米意甲夺冠!曼联3-2利物浦 皇马2-0C罗输球

足坛一夜动态:国米意甲夺冠!曼联3-2利物浦 皇马2-0C罗输球

念洲
2026-05-04 06:42:05
范冰冰 大方公开 :18亿是真 ,没打算复合。

范冰冰 大方公开 :18亿是真 ,没打算复合。

In风尚
2026-05-02 06:04:17
球迷怒批维拉:轮换放弃比赛,故意放热刺保级,英超联赛应该严查

球迷怒批维拉:轮换放弃比赛,故意放热刺保级,英超联赛应该严查

云隐南山
2026-05-04 11:28:03
视频 | 伊朗副议长:霍尔木兹海峡绝不会恢复到战前状态

视频 | 伊朗副议长:霍尔木兹海峡绝不会恢复到战前状态

国际在线
2026-05-04 08:24:00
1-3!利雅得胜利遭爆冷16连胜终结 争冠悬念再起 C罗中框+4次吐饼

1-3!利雅得胜利遭爆冷16连胜终结 争冠悬念再起 C罗中框+4次吐饼

我爱英超
2026-05-04 06:07:28
痛失卫冕尤伯杯,排兵布阵大意了,看“圣坛组合”担心的不仅胜负

痛失卫冕尤伯杯,排兵布阵大意了,看“圣坛组合”担心的不仅胜负

吕彍极限手工
2026-05-04 09:55:37
蒋圣龙妻子辟谣其退役传闻:不信谣不传谣,一切会慢慢好起来

蒋圣龙妻子辟谣其退役传闻:不信谣不传谣,一切会慢慢好起来

懂球帝
2026-05-03 20:30:11
广州为何不敌广东?赛后徐昕毫不客气说出原因,说的很真实!

广州为何不敌广东?赛后徐昕毫不客气说出原因,说的很真实!

吴紒爱体育
2026-05-04 08:34:48
2026-05-04 13:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12572文章数 176461关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

大型邮轮暴发病毒致3死 曾有好莱坞明星夫妇染病死亡

头条要闻

大型邮轮暴发病毒致3死 曾有好莱坞明星夫妇染病死亡

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

严浩翔新歌,父母离婚17年矛盾升级

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
艺术
游戏
亲子
公开课

旅游要闻

快乐拉满!“五一”打卡“齐鲁童乡”,解锁遛娃新体验

艺术要闻

奥托·冯·托伦:19世纪奥地利著名动物/风景画家

体量堪比续作!《毁灭战士:黑暗时代》DLC 细节全曝光

亲子要闻

辛者库幼儿园反转!孩子沦为免费劳力,被奴役干活,宝妈怒退园?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版