网易首页 > 网易号 > 正文 申请入驻

小米陈龙团队首作:统一具身与自动驾驶的开源模型

0
分享至


MiMo-Embodied 证实核心感知与推理能力可在多场景间共享。

作者丨郑佳美

编辑丨马晓宁

在发布多款自研大模型之后,小米又交出了一份重要成果。

小米具身智能团队正式发布了首篇论文,提出统一具身智能与自动驾驶的新模型MiMo-Embodied。模型在 17 项具身任务和 12 项自动驾驶任务中取得领先表现,更重要的是,它从工程层面展示了这两个长期分离的技术领域可以在同一框架下实现统一建模。

小米智驾团队的郝孝帅是论文的核心第一作者,小米智驾团队首席科学家陈龙博士担任project leader。

该模型是陈龙团队的首个重大成果。由于以罗福莉团队之前发布的MiMo-VL作为基座进行了continue-train,这也是文章作者栏中有“罗福莉”的原因。此前有媒体曾误解为罗福莉首个小米成果,也引发了当事人发朋友圈澄清事实。


这篇论文关注的核心问题是:同一套视觉语言模型,能否在面对“抓取物体”与“驾驶车辆”这两类差异极大的任务时,仍保持一致的理解方式和决策逻辑。

这一问题长期困扰多场景智能体的研究,而 MiMo-Embodied 正是小米对这一方向给出的首次系统回应。


01

多任务统领式领先

这篇论文中主要围绕两个主要方向进行了系统实验:具身智能自动驾驶

整体结果非常突出,可以用一句话概括:MiMo-Embodied 在 17 个具身智能任务和 12 个自动驾驶任务中,都取得了全面领先的表现,在多数关键基准上都处于第一。


具身智能方面,实验评测涵盖可供性推断、任务规划和空间理解三个能力。

其实可供性推断的测试主要评估模型是否能够正确理解物体的使用方式。例如识别物体上可操作的部位、精确指出指定位置、判断场景中哪些区域可以放置物品,或在多个相似物体中找到与描述相符的那一个。

在这类任务中,MiMo-Embodied 在五个主流基准上均表现突出。在 RoboRefIt 中,它可以从一组高度相似的物体中准确定位目标;在 Part-Afford 中,它能够识别物体的可操作部件;在 VABench-Point 中,它能根据文字描述精确给出坐标,整体表现达到当前最优水平。


任务规划方面的测试关注模型根据情境推断下一步行动的能力。例如根据视频判断任务的后续步骤、依据目标从多个候选动作中选择正确的操作,或根据已有步骤推断接下来可能发生的事件。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基准中均处于领先位置,说明其在行动推理与任务结构理解方面具有较强的综合能力。


空间理解相关任务要求模型对场景中的空间关系有准确把握,包括判断物体之间的相对方位、在图像中定位对象、输出精确坐标,或回答涉及空间推理的文字问题。

在九个代表性测试中,MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 与 CRPE-relation 等核心基准上取得最高分,在 EmbSpatial 与 SAT 等任务中也保持在第一梯队,体现出扎实的空间推理能力。


自动驾驶方面,实验同样覆盖三个核心模块:场景感知、行为预测和驾驶规划。

场景感知的测试要求模型看清路上的车辆、行人和交通标志,描述场景内容,识别潜在风险,并输出关键目标的位置。MiMo-Embodied 在 CODA-LM 等复杂场景理解任务中表现与专用模型相当甚至更好,在 DRAMA 中对关键物体的定位精度最高,在 OmniDrive 与 MME-RealWorld 中也保持领先。


行为预测要求模型能够推测其他交通参与者可能采取的动作,例如车辆是否会变道、是否会让行,或从多视角画面中理解整体交通流动趋势。MiMo-Embodied 在 MME-RealWorld 与 DriveLM 等基准中表现稳定且领先,显示出对动态交通场景的良好理解能力。

驾驶规划则要求模型给出车辆应当采取的动作,并解释其决策依据,同时保证遵守交通规则、避免风险。MiMo-Embodied 在多个核心基准上取得领先,包括在 LingoQA 中准确解释驾驶行为,在 DriveLM 中从多视角场景推导合理规划,在 MAPLM 中理解道路结构参与决策,在 BDD-X 中清晰说明驾驶理由,整体表现甚至超过一些专门为自动驾驶设计的模型。


02

从单域到跨域的四阶段训练框架

实验结果之外,团队还构建了一套由四个阶段组成的训练流程,使模型的能力从最初的具身理解,逐步拓展至自动驾驶决策,并进一步发展出可解释的推理能力与更高的输出精度。

值得注意的是,这四个阶段均以罗福莉所属的 Xiaomi LLM-Core(大语言核心团队)推出的MiMo-VL作为统一的基础模型展开。整个训练体系以能力逐级递进为结构,每个阶段都为下一阶段奠定能力基础,从而形成一套连续且可扩展的模型演进路径。


第一阶段中,模型主要接受具身智能相关的监督训练,训练数据覆盖可供性推断、任务规划和空间理解等任务。

这些数据让模型能够先掌握如何看懂物体的结构、识别可操作部位、理解场景中的空间关系,并能对一段任务过程进行正确的下一步推断。经过这一阶段,模型具备了基本的空间推理能力、初步的任务规划能力,以及对可供性的感知与表达能力。

第二阶段专门引入自动驾驶领域的监督训练。模型开始学习处理复杂的交通场景,训练数据包括多视角相机画面、驾驶视频、自动驾驶问答、关键目标的坐标标注以及与道路结构相关的知识。

通过这些训练,模型能够理解道路环境、读取交通元素、预测其他交通参与者的行为,并给出符合规则的驾驶规划。此阶段使模型掌握动态场景分析、意图预测以及驾驶决策等关键自动驾驶能力。

第三阶段加入链式思维训练,也就是让模型学习“把推理过程说出来”。训练数据含有明确的推理步骤,模型在此阶段被引导按照“观察场景→分析要素→提出候选→给出理由→得出结论”的顺序组织回答。

结果是模型开始能够自洽地解释自己的判断逻辑,不论是在具身任务还是在驾驶任务中,都能给出清晰、可读的推理链条,显著提升输出的透明度与一致性。


最后在第四阶段进行强化学习微调,目的在于进一步提升模型在细节层面的准确度。例如,多选题会根据是否答对给予奖励;定位类任务通过预测区域与真实区域的 IoU 分数提供更精细的反馈;推理回答的形式会通过格式模板进行严格约束。

通过这些规则化的奖励机制,模型在坐标定位精度、推理质量及细节判断能力上都有明显增强,最终成为一个在多任务场景中都能稳定发挥的统一具身模型。


03

打通两个世界的第一步

这项工作的价值不只在于模型性能领先,而在于它解决了长期困扰业界的一道核心难题:机器人和自动驾驶本应属于两个完全不同的世界,却第一次被放进了同一个大脑里。

过去的模型要么专门做室内具身任务,要么专门做自动驾驶,两个方向无论是场景、感知还是动作都完全割裂,彼此几乎没有可共享的能力。

但 MiMo-Embodied 的实验结果证明,底层的关键智能能力,空间理解、因果推理、动态场景分析,其实可以跨域迁移。机器人理解桌面物体的方式,可以帮助汽车理解路口;汽车处理交通动态的能力,也能让机器人更好地规划任务步骤。

这意味着“智能体”的边界第一次被打通。

除此之外,为了验证这种跨场景融合是否真正可行,团队还专门构建了一个前所未有的大规模评测体系:17 个具身智能基准加上 12 个自动驾驶基准,覆盖可供性、规划、空间理解,以及感知、预测、驾驶决策等多维能力。

模型在如此复杂而全面的体系下依旧保持稳定领先,证明它不是“弱项补短”,而是实实在在具备跨领域的泛化智能。这不仅验证了模型本身,也相当于是替整个行业点亮了“跨域评测”的新标准。

更重要的是,MiMo-Embodied 提供了一种可复制的范式。论文提出的四阶段训练路线:先学具身,再学驾驶,再叠加链式推理,最后用强化学习抠细节,实际上就是一条通向“通用具身智能体”的训练路径。

它告诉行业:智能体能力并不必须分散在不同的模型中,而可以像课程一样逐层积累,让统一模型在多种复杂场景中都保持稳定表现。

而从产业角度看,这更像一次“开锁”的动作。小米把跨域智能的这把钥匙直接扔给了开源社区,意味着未来即便是小团队,也能在这套基础上做改造,做出既能开车又能操作机械臂的多场景智能体。

电动车越来越像“带轮子的智能体”,机器人越来越像“带四肢的智能体”,而 MiMo-Embodied 的出现,让这两条原本平行的技术路线第一次有机会汇流。

更难得的是,这不是一个性能堪堪够用的概念模型,而是在 17 个具身测试 + 12 个自动驾驶测试里都能打、还能赢的大模型,连不少闭源私有模型都被它压了一头。

这一工作所展示的,早已不只是一种新的模型形态,而是向行业明确证明:自动驾驶与具身智能的能力可以在同一个体系中进行训练、评测和集成部署。这种统一方式为未来智能体的发展打开了新的方向,可能会重新塑造多场景智能系统的整体格局。

04

首篇论文背后的团队阵容

这是小米具身智能团队发布的首篇论文,由小米智驾团队的郝孝帅担任第一作者,项目负责人则是小米智驾团队首席科学家陈龙


郝孝帅今年 8 月加入小米智驾团队。博士毕业于中国科学院大学信息工程研究所,现任小米汽车自动驾驶与具身智能算法专家,研究方向为自动驾驶感知和具身智能基座大模型。

在博士期间,他曾在亚马逊实习,师从李沐老师。在北京人工智能研究院担任研究员期间,深度参与了 Robobrain 1.0 和 Robobrain 2.0 等重大项目。结合github等公开信息,自从今年8月加入小米以来,MiMo-Embodied是郝孝帅首次以第一核心成员身份做出的重要贡献,也是首个自动驾驶与具身智能统一基座大模型 。

除此之外,郝孝帅还曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等顶级会议与期刊上发表论文五十余篇,并在 CVPR、ICCV 等国际竞赛中取得了多次前三的成绩,科研背景十分扎实。


项目负责人陈龙博士同样在今年加入小米,担任小米汽车 Principal Scientist,自动驾驶与机器人部 VLA 负责人,他曾任职于端到端自动驾驶独角兽公司 Wayve,担任 Staff Scientist,带领团队成功研发并部署了全球首个上车的视觉语言自动驾驶系统 Lingo,被 Fortune,Financial Times,MIT Technology Review 等国际媒体报导。

此前在 Lyft 自动驾驶部门负责基于众包数据的深度学习规划模型研发工作陈龙博士凭借在辅助驾驶领域引入视觉-语言-行为(VLA)模型的卓越工作,成功入选《麻省理工科技评论》2025 年度亚太区“ 35 岁以下科技创新 35 人”。


加入小米后,陈龙开始带领VLA 团队推进端到端自动驾驶大模型的技术路线,进一步提升模型在复杂交通场景中的泛化、推理和解释能力。他与叶航军、陈光、王乃岩共同构成小米智驾团队的核心技术力量,组成了当前小米智驾体系的关键架构班底。


作者主页:

https://haoxiaoshuai.github.io/homepage/

https://www.linkedin.com/in/long-chen-in/

论文链接:

https://arxiv.org/abs/2511.16518

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“连上厕所都盯着”!深圳多人遭遇后投诉!95后大厂程序员自述经历

“连上厕所都盯着”!深圳多人遭遇后投诉!95后大厂程序员自述经历

南方都市报
2026-04-05 22:14:15
真相大白!王曼昱落败孙颖莎原因曝光,师哥张继科点评曼昱不够狠

真相大白!王曼昱落败孙颖莎原因曝光,师哥张继科点评曼昱不够狠

曹说体育
2026-04-05 20:58:47
中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

丁丁鲤史纪
2026-04-03 12:09:15
娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

另子维爱读史
2026-04-04 21:35:59
伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

界面新闻
2026-04-05 14:37:11
主持人沈南自曝:与老婆在一起21年,老婆把他V信设成“免打扰”

主持人沈南自曝:与老婆在一起21年,老婆把他V信设成“免打扰”

小娱乐悠悠
2026-04-04 17:15:35
泽连斯基:愿意与普京面对面会谈

泽连斯基:愿意与普京面对面会谈

参考消息
2026-04-05 21:18:05
意难平的2-3!津门虎遭申花补时绝杀,“逆天失误”让人难以接受

意难平的2-3!津门虎遭申花补时绝杀,“逆天失误”让人难以接受

汪星人哟
2026-04-05 21:35:55
曼联失意巨星铁心离队!纽卡强势介入,3500 万镑捡宝时机已到

曼联失意巨星铁心离队!纽卡强势介入,3500 万镑捡宝时机已到

澜归序
2026-04-06 04:01:15
2026年4月5日深夜,伊朗军队扔下了一颗“重磅炸弹”

2026年4月5日深夜,伊朗军队扔下了一颗“重磅炸弹”

果妈聊娱乐
2026-04-06 08:05:35
万科前董事长郁亮曾两次拒绝王石

万科前董事长郁亮曾两次拒绝王石

地产微资讯
2026-03-04 08:40:10
一辈子关系最好的两种人:小时候光腚一起玩,长大后光腚一起玩

一辈子关系最好的两种人:小时候光腚一起玩,长大后光腚一起玩

青苹果sht
2026-04-04 06:26:30
生日照藏玄机,提离婚掀桌子,赌王家族“恩爱剧本”演不下去了

生日照藏玄机,提离婚掀桌子,赌王家族“恩爱剧本”演不下去了

天马幸福的人生
2026-04-03 16:20:42
店铺突然清空!知名品牌宣布:结束运营!网友:当时有多爱,现在有多悔

店铺突然清空!知名品牌宣布:结束运营!网友:当时有多爱,现在有多悔

南方都市报
2026-04-05 09:53:54
特朗普撒下弥天大谎!美军营救飞行员失败,三架军机已被伊朗击落

特朗普撒下弥天大谎!美军营救飞行员失败,三架军机已被伊朗击落

阿芒娱乐说
2026-04-05 17:38:35
奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

奢靡淫逸的白马会所:性交易泛滥,让富婆挥金如土,最终一夜覆灭

浮光惊掠影
2026-02-20 23:15:25
第2名美军飞行员躲在山岩缝隙里,与伊朗武装人员相距不到3公里

第2名美军飞行员躲在山岩缝隙里,与伊朗武装人员相距不到3公里

桑未落
2026-04-05 20:15:40
约翰逊狂轰33+21创纪录!浙江双杀福建5连胜 皮特森31+5+4

约翰逊狂轰33+21创纪录!浙江双杀福建5连胜 皮特森31+5+4

醉卧浮生
2026-04-05 21:41:08
单赛季奖金破百万英镑!赵心童成历史第三人,旋风圆梦排名赛六冠

单赛季奖金破百万英镑!赵心童成历史第三人,旋风圆梦排名赛六冠

世界体坛观察家
2026-04-06 05:09:34
扭脚死活不碰男消防员,硬要5个人抬下山?这叫保守还是折腾人!

扭脚死活不碰男消防员,硬要5个人抬下山?这叫保守还是折腾人!

小李子体育
2026-04-06 01:41:05
2026-04-06 08:39:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7170文章数 20743关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

媒体:美军营救行动耍了伊朗 中情局发假消息迷惑对方

头条要闻

媒体:美军营救行动耍了伊朗 中情局发假消息迷惑对方

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

房产
家居
艺术
时尚
健康

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

家居要闻

温馨多元 爱的具象化

艺术要闻

绝了!东西方两幅神画,一眼就上瘾

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版