网易首页 > 网易号 > 正文 申请入驻

小米打通智驾和具身大模型,然后开源了

0
分享至

Henry 发自 凹非寺
量子位 | 公众号 QbitAI

全球首个自驾+机器人统一基座模型开源了!

针对自驾与具身操作场景的知识迁移难题,小米汽车陈龙团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied



MiMo-Embodied基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。



无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

具身与智驾,小米全都要!

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战,MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。



如上图所示,

MiMo-Embodied架构由以下三个部分组成:

  • 用于编码视觉输入的 Vision Transformer (ViT):模型使用ViT来编码各种类型的视觉输入,包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。
  • 一个投影器(projector): 使用多层感知机(MLP)作为投影器(Projector),将视觉Token映射到与大语言模型对齐的潜在空间。
  • 负责文本理解和推理的LLM:LLM作为核心组件,负责理解文本指令并结合视觉信息进行推理,生成连贯且上下文相关的响应。

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:



首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

  • 通用数据:基于MiMo-VL语料库,包含图像、视频、长文本等,长文档和合成推理数据,确保广泛覆盖感知、推理和交互能力。
  • 具身智能数据:涵盖可供性预测(Affordance Prediction)、高层任务规划和空间理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。
  • 自动驾驶数据:涵盖环境感知、状态预测和驾驶规划,整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。



阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。



结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。



其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。



实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。



现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。



在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。



在自动驾驶能力上,研究首先在具有挑战性的NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。



此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。



在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文的一作是郝孝帅博士。他于今年8月加入小米汽车,在陈龙博士的指导下,从事具身多模态大模型方向的研究。

郝孝帅博士毕业于中国科学院大学信息工程研究所。此前,他曾在北京智源研究院、三星、亚马逊等机构工作。



这篇论文的project leader是小米智能驾驶的首席科学家陈龙博士,他此前就职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。



更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:李隼退休!他妹妹加入日本籍+改日本名字 培养张本智和

日媒:李隼退休!他妹妹加入日本籍+改日本名字 培养张本智和

念洲
2026-01-15 13:14:22
加拿大打破核聚变世界纪录,为什么令整个能源行业震惊?

加拿大打破核聚变世界纪录,为什么令整个能源行业震惊?

百科密码
2026-01-15 16:05:03
中央纪委全会提年轻干部腐败,有何深意

中央纪委全会提年轻干部腐败,有何深意

中国新闻周刊
2026-01-15 20:02:26
储能出海再添新军!远信储能启动港股IPO,2024年出货量全球第五|港E声

储能出海再添新军!远信储能启动港股IPO,2024年出货量全球第五|港E声

时代投研
2026-01-13 19:54:32
柬埔寨副首相放话:特朗普让我们惊醒,不能只依靠中国

柬埔寨副首相放话:特朗普让我们惊醒,不能只依靠中国

扬子晚报
2026-01-15 12:30:47
不等中方出手,7国主动从中国减少进口稀土,特朗普宣告对华取胜

不等中方出手,7国主动从中国减少进口稀土,特朗普宣告对华取胜

军机Talk
2026-01-15 11:02:02
贺娇龙离世!其大量骑马不正确的踩马镫方式流出,或是悲剧的起因

贺娇龙离世!其大量骑马不正确的踩马镫方式流出,或是悲剧的起因

火山诗话
2026-01-15 05:41:36
女教师群聊“八卦”被拘,起诉公安局被驳回

女教师群聊“八卦”被拘,起诉公安局被驳回

中国新闻周刊
2026-01-15 16:08:17
塞尔:皇马今天已开启下赛季选帅工作,并接触了数位教练

塞尔:皇马今天已开启下赛季选帅工作,并接触了数位教练

懂球帝
2026-01-15 22:10:35
多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

古希腊掌管松饼的神
2026-01-15 16:05:22
16位灯神大集结!

16位灯神大集结!

碧波万览
2026-01-16 02:50:03
中国稀土地位不保?撬走中方人才,攻克提炼技术,但西方笑得太早

中国稀土地位不保?撬走中方人才,攻克提炼技术,但西方笑得太早

科普100克克
2026-01-15 15:22:35
降息、降首付!降个税!2026年的货币政策开始启动了

降息、降首付!降个税!2026年的货币政策开始启动了

樱桃大房子
2026-01-15 19:38:02
47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

180视角
2026-01-15 13:33:23
就在刚刚!变天了,中方向全世界宣布:对美合作终止

就在刚刚!变天了,中方向全世界宣布:对美合作终止

瞳哥视界
2026-01-15 20:02:51
爆冷!皇马2-3不敌西乙保级队,赛后采访新帅阿韦罗亚彻底破防!

爆冷!皇马2-3不敌西乙保级队,赛后采访新帅阿韦罗亚彻底破防!

田先生篮球
2026-01-15 08:51:43
言论翻车!张维为“特朗普捉马杜罗显美弱势”言论遭狂批

言论翻车!张维为“特朗普捉马杜罗显美弱势”言论遭狂批

老马拉车莫少装
2026-01-15 23:11:25
中央财经大学刘姝威:福耀科技大学大一学生已经被企业抢光

中央财经大学刘姝威:福耀科技大学大一学生已经被企业抢光

新浪财经
2026-01-15 11:50:45
8连胜现存最长!山东三外援72分大胜宁波 辛普森31+7+10

8连胜现存最长!山东三外援72分大胜宁波 辛普森31+7+10

醉卧浮生
2026-01-15 21:36:05
特朗普下令:180天打破中国垄断,不然…

特朗普下令:180天打破中国垄断,不然…

观察者网
2026-01-15 15:23:11
2026-01-16 04:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12020文章数 176359关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

本地
时尚
旅游
公开课
军事航空

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

年度最扎心电影,看得中年男女坐立难安

旅游要闻

龙庆峡冰灯节“上新”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版