对话小米辅助驾驶团队：两年三阶，一场以体验为终点的技术马拉松|陈光|机器人|小米集团|知名企业|世界人工智能大会

分享至

今天在何处聚焦资源，
明天便可能在哪里赢得市场。

在智能电动车竞赛中，辅助驾驶的角逐早已成为决定胜负的重中之重。

2026年3月，随着新一代SU7发布，小米正式推出基于XLA认知大模型的新一代辅助驾驶方案。这不仅是一次技术路线的关键转折，也让小米把“体验优先”的思路推进到新的阶段。

这个一度被行业视为“后来者”的玩家，如今正凭借一套清晰而迅猛的技术进化路径，走出一条聚焦用户体验、务实演进的新派道路。

回顾小米辅助驾驶的发展历程，这是一段小米从跟随行业主流技术路径，到逐步形成自主技术路径和技术思考的进化史。

2024年3月，小米辅助驾驶在第一代SU7上首次量产，当时行业正围绕“无图”和“开城”展开激辩，小米第一代方案也以此切入，正式进入“无图开城”的战场。作为新选手，小米对主流趋势的回应是跟从。

随着规则驱动的无图方案逐渐触及天花板，行业转向探索以数据为核心的“端到端”模型。2025年2月，小米迅速跟进，推出第二代辅助驾驶系统，并于同年7月快步迭代至1000Clips版本，在数据驱动的赛道上奋起直追。

然而，数据驱动的“蜜月期”并未持续太久。端到端方案的体验高度依赖数据，难以穷尽的长尾场景成为共同挑战，行业进入瓶颈期。无人区的技术探索并无先迹可循，行业迸发出多条技术路线。

小米并未盲目持续投入数据军备竞赛，而是从第一性原理思考，将目光投向更本质的驾驶原理——能否让“车”像“人”一样学会开车？

2026年3月，小米便带来了第三代方案：XLA认知大模型。与此前两代不同，XLA不再仅仅依赖单纯的规则或数据模式，而是试图让辅助驾驶系统真正“理解”环境，进行常识与因果推断。

小米辅助驾驶此刻已不再只是行业的跟随者，在认知驱动的新起点上，小米与领先玩家站在了同一起跑线，甚至展现出了独特的技术思考。

从规则、数据到认知，两年三次跨越，小米的压力不言而喻。规则时代需补工程积累的课，数据时代要追赶闭环规模，后来者必须加倍奔跑。而恰在此时，行业方向再度调转，向认知层面进发。小米这一次不仅果断跟上了节奏，更是凭借对用户体验的坚持，给出了完成度与特色兼具的答案。

小米是如何做到的？36氪与小米汽车智能驾驶端到端技术负责人陈光、小米汽车智能驾驶基座大模型负责人陈龙进行了一场深度对话。

交谈中，陈龙坦言，小米辅助驾驶的确起步较晚、发布节奏也没有同行那么快，“但我们一定是把体验最好、最安全的这个产品送到用户手中”。比起博眼球，小米更愿意选择务实的那条路。

其次，与许多单纯追求技术指标的公司不同，小米在辅助驾驶领域依然延续着“和用户交朋友”的理念。

小米最终为何选择XLA？陈光告诉36氪，在确定采用XLA路线之前，团队内部也曾经历过技术路径的争论。在行业方向尚未明朗之时，各种方案看似都有其合理之处。最后如何统一方向？陈光表示，“团队一致认可，XLA才能够为用户带来真正‘很酷’的体验。”

这种体验优先的思路，背后实则需要十分坚实的技术支撑。小米在多模态认知、具身智能交互以及工程落地已探索与实践数年，这些经验理解，便是其在辅助驾驶行业最新的技术争夺战中拔得头筹的重要原因。

辅助驾驶的“认知时代”刚刚启幕，尚无成熟路径可循。这场无人区的探索，比拼的不仅是技术，更是企业的战略定力与对用户需求的洞察深度。今天在何处聚焦资源，明天便可能在哪里赢得市场。

小米所选择的这条融合自研基座模型、多模态认知与具身智能数据的XLA之路，能否真正实现从“并跑”到“引领”的跨越？从接下来的对话中，一起聆听小米如何拆解其中的逻辑、挑战与未来构想。

解析：XLA，

在认知大模型上进行创新

36氪：小米的辅助驾驶，现在在做什么？

陈龙：我们正在做的，就是在辅助驾驶领域，引入认知大模型这个范式。我们希望通过大模型，让辅助驾驶系统有对环境的认知能力，能习得一些人类世界的常识、交通规则和一些道路实物的因果关系，从而解决端到端难以解决的长尾问题。

前段时间发布的XLA认知大模型，就是我们推出的第一版认知驱动的辅助驾驶系统。

36氪：相比端到端，认知大模型的优势是什么？

陈龙：我举一个场景案例，比如前方道路封闭了，现场通过路牌和围挡引导车辆绕行，过程中可能还需要临时借道，甚至短暂跨越双黄线。端到端版本更多是根据当前道路形态继续往前走，遇到这种临时改道场景，未必能主动理解“现在应该绕行”。但XLA认知大模型可以结合现场标识和环境信息，理解这是一个“封路后按指示绕行”的场景，进一步推理出可行路径，并发起合理绕行。

36氪：听起来和行业现在热议的VLA大模型没什么区别？

陈龙：VLA其实是学术界传过来的名词，它的意思就是视觉语言大模型。

我们XLA认知大模型不仅仅有视觉信息，还有声音信息、雷达信息，包括更多模态的比如导航之类的。我们XLA中X的第一层意思，就是我们采用了比视觉更多的模态作信息输入。

另一方面就是我们在XLA的基座模型中，融入了具身智能相关的数据。

这里也有一个很重要的差别，行业里其他厂商的认知大模型是在一些开源模型上打造的，小米使用的是我们自研的Xiaomi MiMo-Embodied具身基座模型。因为是自研的，所以我们在基座模型的预训练阶段，便加入了很多具身智能的数据。所以XLA中X的第二层含义，便是我们具备更丰富的数据。

还有一个很核心的区别。

行业里的VLA，有些会输出大段文字推理，然后再输出动作。这样有一个问题，就是速度太慢了，延时不可控。然后就有另一种说法，那索性去掉语言了。但这样它就不是VLA了，因为根本就没用上L的推理能力了。

我们XLA使用的是潜空间推理。具体做法就是，在推理的时候使用的是机器语言，这样的话过程和推理时延都是可控的。当然，这个机器语言也可以解码成文字，具备可解释性。我们既保证了推理能力，又大大提升了效率。

36氪：现在业界都在探索汽车和具身智能机器人的关系，小米为什么会把具身智能的数据用到汽车上？

陈龙：我们把具身智能相关数据加进来，主要是为了训练汽车的空间感知和空间推理能力。

空间感知里，有一个精度差距。汽车对周围事物的感知精度，一般是在分米级别。但人形机器人，它平常的训练任务可能是抓握杯子之类的，它的数据精度可以是厘米甚至更高级别。用人形机器人的数据来训练汽车，那汽车的能力不就更强了吗？

其次，现在的辅助驾驶汽车在路上开，其实没有跟周围事物产生交互的。我们的目的其实是要避免碰撞，但辅助驾驶系统其实并不了解碰撞到底是什么。空间推理能力，其实就是让汽车理解，这样子开造成什么样的后果。而机器人，刚好就有很多这样的交互的数据。

我们的Xiaomi MiMo-Embodied，就是全球首个打通了辅助驾驶和机器人的具身智能基座模型。当然，我们也发现，辅助驾驶和机器人的数据是互相增强的，所以未来我们希望辅助驾驶、机器人甚至其他小米智能设备都进化成一个大脑，从而带来更加无缝的体验。

36氪：但具身智能的数据复杂又精巧，想要跟辅助驾驶的数据融合，挑战不小。

陈龙：是的。

具身智能数据，首先就包含很多不同形态的机器人本体，这些机器人本体上，传感器的位置不一样，甚至相机图像的分辨率都不同。然后辅助驾驶的输出大多是2D层面的，但机器人更多是3D空间的多关节输出。

难就难在，如何设计一个精巧的模型结构，让这些不同的数据统一起来。当然，目前的训练目标主要是空间感知和空间推理，还不太涉及动作级别，可能未来才需要考虑两种任务在执行空间上的差别。

36氪：XLA仅限于行车场景吗？泊车上有什么进展吗？

陈光：我们的泊车也更智能了。这次有推出一个新功能，比如你导航的最终目的地是一个商场的商户，那我们泊车会在这个商圈停车场中，寻找离这个商户电梯口最近的停车位。目前，这个功能收到了一些用户的好评和推荐了。

工程落地：

让“车”像“人”，并不容易

36氪：感觉这个功能实现起来不容易。

陈光：我觉得难点有很多，但本质上还是怎么能像人一样，到一个相对陌生的环境时，能找到最适合自己的停车位。

车进入一个地库后，你需要能读懂地库的环境，包括一些文字标牌、电梯口的信息之类的。如果最近的停车位都停满了，我们就会开始漫游，找更适合的停车位。本质上就是，怎么根据已有的这些指引信息，去到导航最终的目的地。

36氪：这对车端实时处理能力要求很高。

陈光：是的，比较高。我们是经过了很大的算法优化，才把XLA部署上去的。这种算法适配，其实也是很大的挑战。我们前前后后经历了很多开发和工程的优化，也踩过一些坑，做的也是有一些辛苦。在这里面，我们是有一些Know-How的。

36氪：你如何评价小米辅助驾驶的工程能力？

陈光：我个人认为还是很比较领先的，现在还是很少有能把这么复杂的一个模型部署到这个实际的车端，并且推送给所有用户的企业。

36氪：那小米接下来的方向会是什么？

陈龙：第一肯定是算力问题。大模型，它尺寸越大，能力就越强，我们当然想在车上放一个最强的一个模型，但是车端是有算力限制的。我们现在做的潜空间推理，意义就是这个。当然，以后会做更多。

陈光：是的，车端模型参数量的进一步的提升，包括它在训练过程中如何能消费更多的数据、能理解更多的场景，这是第一个的挑战。

第二个挑战，就是怎么给用户开发更多行车和泊车的功能，进一步提升产品体验，特别是新功能能不能给用户带来更多惊喜。

升级：优质数据、

基座模型与仿真世界缺一不可

36氪：认知大模型的优化也依赖数据吗？

陈龙：数据肯定是一方面，我们持续需要高质量的数据，另一方面就是模型能力本身，尤其是基座模型。

刚刚提到，有些厂商会用开源的基座模型。这里有一个问题，你并不知道这些开源模型是怎么做预训练的，它可能没有很细致的数据清洗和标准，甚至还会使用到网上比较抽象的、危险的信息。这些东西反映到最终的驾驶行为时，可能会引发蝴蝶效应，造成很大风险。

但从头做基座大模型非常不容易，第一是需要一个很强的团队，然后是数据筛选和清洗工作，再要搭建调试自己的Infra系统，还要有一套评测指标。并且，一个版本模型发布出来后，可能几个月就已不再是领先架构了，所以这一套动作还要反复做。

所以认知大模型能优化到什么程度，不仅取决于企业在基座模型投入的人才和资源，还和企业对大模型趋势的判断有关。

36氪：所以小米现在All in认知大模型了？

陈光：现在行业对辅助驾驶有不同的探索路线，一类是我们现在做的XLA，直接引入认知大模型，另一类则希望用世界模型的生成和重建的能力去解决认知的问题。

当然，我们不认为认知大模型和世界模型是对立的，就算是多模态语言模型，也需要一个很好的仿真模拟环境。

我们其实是把两条技术路线结合起来了，并不是说车端用XLA的技术，我们在云端就要完全放弃世界模型。

36氪：世界模型还是有难以替代的优势。

陈光：至少在一些闭环仿真，就是将这种物理世界投射到这种数字空间的时候，世界模型是不可缺少的。

现在技术的焦点就是长尾场景，比如马路上滚落一个异形石块或者轮胎，真实世界你很难用实车去遇到，很难批量收集这样的场景。所以无论是世界模型还是XLA，都要在仿真模拟器里探索。

36氪：这算是行业级的技术新共识吗？

陈光：可能因为小米在一段式端到端的阶段就走得比较靠前，所以我们在认知大模型出现前，就觉得闭环仿真能力很重要，包括特斯拉在内，行业领头羊们对世界模型的重建和生产，应该都做得比较扎实了。

36氪：世界模型出现前，闭环仿真是怎么做的？

陈光：很难做，几乎只有静态场景，动态场景都依赖真实数据，所以以前大家总是会说“数据量很稀缺”。

36氪：但XLA已经可以“看懂”这些路面障碍物了，还需要这样的数据反复训练吗？

陈光：我们希望一个功能在真实给用户之前，都在一个模拟器里面完整去测过。

36氪：测过就能保证真实使用时的安全吗？

陈光：数字空间和世界模型，其实是一个漏斗的作用，它可以把大部分的问题都拦截住。对于剩下的问题，多模态大模型本身就具备泛化能力，我们希望通过它本身的认知和推理能力来提出更好的解决方案。这两者其实是一个结合的作用。

36氪：那小米会在世界模型上持续投入吗？未来迭代的方向会是什么？

陈光：今年我们在GTC上介绍了小米在世界模型上的新进展，也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025这些顶会上发表了近10篇世界模型相关的论文，这足以说明，小米高度重视世界模型。

方向的话，我觉得三个方面。

第一是真不真，这个可能跟咱们理解的完美真实不太一样。我举个例子，我们希望模仿的雨天，是摄像头上挂有水珠的那种真实的图像，而不是说模拟出一个绝对干净的雨天环境。我们希望模拟的情景，能和车端最后获取的信息一致，这样你的测试才有效果。

第二就是要很丰富。我今天可能想解决阳光直射场景的通行，过两天可能又希望解决大雨、大雾或大雪情况下的通行。所以能不能在不改变交通信息的情况下，只改变天气光照信息呢？

第三就是场景的编辑能力，你的数字资产要足够丰富，我能用这些信息模拟各种各样的场景。足够丰富，才有足够的作用。

36氪：听起来很复杂，小米在这已经投入多久了？

陈光：已经两年了。我回忆了一下，从24年上半年开始就有一些技术上的准备了。到24年末，小米的技术已经在行业和学术界得到一定认可。25年下半年就可以走到技术的收获期了，有一些重点比赛的冠军、论文之类的。

36氪：也就是说，小米在这方面已经具备明显优势了？

陈光：我们当然希望先发优势能一直保持下去，我们做的确实比较早，希望能对行业产生一些正向影响，大家一起来把这个事做扎实一些，最终其实也是服务于整个行业的产品体验嘛。

价值观：既要安全、也要体验

36氪：什么是好的辅助驾驶体验？

陈光：我觉得好的体验，最重要的事情一定是安全。不能给用户带来不安全或者不安心的产品，这个是我们当前最核心的一个事情。

36氪：为什么会把安全和安心拆开来讲？

陈光：从技术角度讲，你只要不碰撞就是安全。但用户对安全的感受，并不只是“不碰撞”。比如急刹车，用户不清楚系统为什么做出这样“过激”的行为，可能会有体感上的不适，也会产生“不安全”的感觉。

所以我们不光要保证辅助驾驶的技术维度的安全，也要保证给用户带来足够的安心感。只有既安全、又让人敢用、愿用，这样的产品体验才是完整的。

36氪：小米在安心感上，有什么心得吗？

陈光：我觉得是有一些新的进展的。

比如我们在路口盲区，会有一些预防性的减速，这就很像人类开车的思路，用户第一反应会是你做了这个动作，你懂这个场景。

再比如，前方即将进入拥堵路段了，我们的车不会走到最后一步、到非常极限的时候才做一脚急刹，而是说会早早的、防御性地降低速度。这也代表了我们在安全和安心感上的一些思考吧。

36氪：能否总结下小米辅助驾驶研发的性格，或者说是价值观？

陈光：怎么说呢，小米的价值观还是深刻影响了小米辅助驾驶团队的性格。我觉得和用户交朋友是最重要事情，从用户的角度去思考他们需要什么样的产品体验，再反过来去推进这个技术的迭代。

就比如从端到端到XLA，初期我们有些同事看好世界模型、有些同事更看好XLA，但深度讨论过后，大家最终是觉得XLA一旦做成，一定能给用户带来很酷的产品体验，所以就算再难，我们也冲了。

陈龙：是的，虽然我们小米的辅助驾驶的起步比较晚，可能我们这个发布的节奏也没有那么的快，但我们一定是把体验最好、最安全的这个产品送到用户手中。

从我的角度，我觉得我们也一直在践行第一性原理。因为我们坚信大模型可以帮助辅助驾驶解决一些关键问题，所以我们会做很多大模型的探索工作，最终希望把大模型的能力发挥出来，推动辅助驾驶朝更高阶能力继续演进。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

对话小米辅助驾驶团队：两年三阶，一场以体验为终点的技术马拉松

Kimi K3火爆，奥特曼：开源一定有一席之地

男女酒后驾车坠河身亡女子家属索赔近200万 法院判了

男女酒后驾车坠河身亡女子家属索赔近200万 法院判了

毫无存在感的NBA状元，最先谢谢惠顾？

55岁影帝黄政民出轨

天丝红牛多地检出成分不合格 企业申诉

MG 07预售12.59万起 高阶版配激光雷达+CDC

态度原创

来了！广州首个现房销售项目，将落地南沙！

皇家院士晚节不保？一幅湿漉漉的街景，差点毁掉他一生清誉！

做好这几件事，帮你远离中风！

宝贝在亲子游乐园玩得好开心

男女酒后驾车坠河身亡女子家属索赔近200万法院判了

男女酒后驾车坠河身亡女子家属索赔近200万法院判了

天丝红牛多地检出成分不合格企业申诉

MG 07预售12.59万起高阶版配激光雷达+CDC