网易首页 > 网易号 > 正文 申请入驻

对话小米辅助驾驶团队:两年三阶,一场以体验为终点的技术马拉松

0
分享至





  • 今天在何处聚焦资源,
  • 明天便可能在哪里赢得市场。



在智能电动车竞赛中,辅助驾驶的角逐早已成为决定胜负的重中之重。

2026年3月,随着新一代SU7发布,小米正式推出基于XLA认知大模型的新一代辅助驾驶方案。这不仅是一次技术路线的关键转折,也让小米把“体验优先”的思路推进到新的阶段。

这个一度被行业视为“后来者”的玩家,如今正凭借一套清晰而迅猛的技术进化路径,走出一条聚焦用户体验、务实演进的新派道路。

回顾小米辅助驾驶的发展历程,这是一段小米从跟随行业主流技术路径,到逐步形成自主技术路径和技术思考的进化史。

2024年3月,小米辅助驾驶在第一代SU7上首次量产,当时行业正围绕“无图”和“开城”展开激辩,小米第一代方案也以此切入,正式进入“无图开城”的战场。作为新选手,小米对主流趋势的回应是跟从。

随着规则驱动的无图方案逐渐触及天花板,行业转向探索以数据为核心的“端到端”模型。2025年2月,小米迅速跟进,推出第二代辅助驾驶系统,并于同年7月快步迭代至1000Clips版本,在数据驱动的赛道上奋起直追。

然而,数据驱动的“蜜月期”并未持续太久。端到端方案的体验高度依赖数据,难以穷尽的长尾场景成为共同挑战,行业进入瓶颈期。无人区的技术探索并无先迹可循,行业迸发出多条技术路线。

小米并未盲目持续投入数据军备竞赛,而是从第一性原理思考,将目光投向更本质的驾驶原理——能否让“车”像“人”一样学会开车?

2026年3月,小米便带来了第三代方案:XLA认知大模型。与此前两代不同,XLA不再仅仅依赖单纯的规则或数据模式,而是试图让辅助驾驶系统真正“理解”环境,进行常识与因果推断。

小米辅助驾驶此刻已不再只是行业的跟随者,在认知驱动的新起点上,小米与领先玩家站在了同一起跑线,甚至展现出了独特的技术思考。

从规则、数据到认知,两年三次跨越,小米的压力不言而喻。规则时代需补工程积累的课,数据时代要追赶闭环规模,后来者必须加倍奔跑。而恰在此时,行业方向再度调转,向认知层面进发。小米这一次不仅果断跟上了节奏,更是凭借对用户体验的坚持,给出了完成度与特色兼具的答案。

小米是如何做到的?36氪与小米汽车智能驾驶端到端技术负责人陈光、小米汽车智能驾驶基座大模型负责人陈龙进行了一场深度对话。

交谈中,陈龙坦言,小米辅助驾驶的确起步较晚、发布节奏也没有同行那么快,“但我们一定是把体验最好、最安全的这个产品送到用户手中”。比起博眼球,小米更愿意选择务实的那条路。

其次,与许多单纯追求技术指标的公司不同,小米在辅助驾驶领域依然延续着“和用户交朋友”的理念。

小米最终为何选择XLA?陈光告诉36氪,在确定采用XLA路线之前,团队内部也曾经历过技术路径的争论。在行业方向尚未明朗之时,各种方案看似都有其合理之处。最后如何统一方向?陈光表示,“团队一致认可,XLA才能够为用户带来真正‘很酷’的体验。”

这种体验优先的思路,背后实则需要十分坚实的技术支撑。小米在多模态认知、具身智能交互以及工程落地已探索与实践数年,这些经验理解,便是其在辅助驾驶行业最新的技术争夺战中拔得头筹的重要原因。

辅助驾驶的“认知时代”刚刚启幕,尚无成熟路径可循。这场无人区的探索,比拼的不仅是技术,更是企业的战略定力与对用户需求的洞察深度。今天在何处聚焦资源,明天便可能在哪里赢得市场。

小米所选择的这条融合自研基座模型、多模态认知与具身智能数据的XLA之路,能否真正实现从“并跑”到“引领”的跨越?从接下来的对话中,一起聆听小米如何拆解其中的逻辑、挑战与未来构想。



解析:XLA,

在认知大模型上进行创新

36氪:小米的辅助驾驶,现在在做什么?

陈龙:我们正在做的,就是在辅助驾驶领域,引入认知大模型这个范式。我们希望通过大模型,让辅助驾驶系统有对环境的认知能力,能习得一些人类世界的常识、交通规则和一些道路实物的因果关系,从而解决端到端难以解决的长尾问题。

前段时间发布的XLA认知大模型,就是我们推出的第一版认知驱动的辅助驾驶系统。

36氪:相比端到端,认知大模型的优势是什么?

陈龙:我举一个场景案例,比如前方道路封闭了,现场通过路牌和围挡引导车辆绕行,过程中可能还需要临时借道,甚至短暂跨越双黄线。端到端版本更多是根据当前道路形态继续往前走,遇到这种临时改道场景,未必能主动理解“现在应该绕行”。但XLA认知大模型可以结合现场标识和环境信息,理解这是一个“封路后按指示绕行”的场景,进一步推理出可行路径,并发起合理绕行。

36氪:听起来和行业现在热议的VLA大模型没什么区别?

陈龙:VLA其实是学术界传过来的名词,它的意思就是视觉语言大模型。

我们XLA认知大模型不仅仅有视觉信息,还有声音信息、雷达信息,包括更多模态的比如导航之类的。我们XLA中X的第一层意思,就是我们采用了比视觉更多的模态作信息输入。

另一方面就是我们在XLA的基座模型中,融入了具身智能相关的数据。

这里也有一个很重要的差别,行业里其他厂商的认知大模型是在一些开源模型上打造的,小米使用的是我们自研的Xiaomi MiMo-Embodied具身基座模型。因为是自研的,所以我们在基座模型的预训练阶段,便加入了很多具身智能的数据。所以XLA中X的第二层含义,便是我们具备更丰富的数据。

还有一个很核心的区别。

行业里的VLA,有些会输出大段文字推理,然后再输出动作。这样有一个问题,就是速度太慢了,延时不可控。然后就有另一种说法,那索性去掉语言了。但这样它就不是VLA了,因为根本就没用上L的推理能力了。

我们XLA使用的是潜空间推理。具体做法就是,在推理的时候使用的是机器语言,这样的话过程和推理时延都是可控的。当然,这个机器语言也可以解码成文字,具备可解释性。我们既保证了推理能力,又大大提升了效率。



36氪:现在业界都在探索汽车和具身智能机器人的关系,小米为什么会把具身智能的数据用到汽车上?

陈龙:我们把具身智能相关数据加进来,主要是为了训练汽车的空间感知和空间推理能力。

空间感知里,有一个精度差距。汽车对周围事物的感知精度,一般是在分米级别。但人形机器人,它平常的训练任务可能是抓握杯子之类的,它的数据精度可以是厘米甚至更高级别。用人形机器人的数据来训练汽车,那汽车的能力不就更强了吗?

其次,现在的辅助驾驶汽车在路上开,其实没有跟周围事物产生交互的。我们的目的其实是要避免碰撞,但辅助驾驶系统其实并不了解碰撞到底是什么。空间推理能力,其实就是让汽车理解,这样子开造成什么样的后果。而机器人,刚好就有很多这样的交互的数据。

我们的Xiaomi MiMo-Embodied,就是全球首个打通了辅助驾驶和机器人的具身智能基座模型。当然,我们也发现,辅助驾驶和机器人的数据是互相增强的,所以未来我们希望辅助驾驶、机器人甚至其他小米智能设备都进化成一个大脑,从而带来更加无缝的体验。

36氪:但具身智能的数据复杂又精巧,想要跟辅助驾驶的数据融合,挑战不小。

陈龙:是的。

具身智能数据,首先就包含很多不同形态的机器人本体,这些机器人本体上,传感器的位置不一样,甚至相机图像的分辨率都不同。然后辅助驾驶的输出大多是2D层面的,但机器人更多是3D空间的多关节输出。

难就难在,如何设计一个精巧的模型结构,让这些不同的数据统一起来。当然,目前的训练目标主要是空间感知和空间推理,还不太涉及动作级别,可能未来才需要考虑两种任务在执行空间上的差别。

36氪:XLA仅限于行车场景吗?泊车上有什么进展吗?

陈光:我们的泊车也更智能了。这次有推出一个新功能,比如你导航的最终目的地是一个商场的商户,那我们泊车会在这个商圈停车场中,寻找离这个商户电梯口最近的停车位。目前,这个功能收到了一些用户的好评和推荐了。





工程落地:

让“车”像“人”,并不容易

36氪:感觉这个功能实现起来不容易。

陈光:我觉得难点有很多,但本质上还是怎么能像人一样,到一个相对陌生的环境时,能找到最适合自己的停车位。

车进入一个地库后,你需要能读懂地库的环境,包括一些文字标牌、电梯口的信息之类的。如果最近的停车位都停满了,我们就会开始漫游,找更适合的停车位。本质上就是,怎么根据已有的这些指引信息,去到导航最终的目的地。

36氪:这对车端实时处理能力要求很高。

陈光:是的,比较高。我们是经过了很大的算法优化,才把XLA部署上去的。这种算法适配,其实也是很大的挑战。我们前前后后经历了很多开发和工程的优化,也踩过一些坑,做的也是有一些辛苦。在这里面,我们是有一些Know-How的。

36氪:你如何评价小米辅助驾驶的工程能力?

陈光:我个人认为还是很比较领先的,现在还是很少有能把这么复杂的一个模型部署到这个实际的车端,并且推送给所有用户的企业。

36氪:那小米接下来的方向会是什么?

陈龙:第一肯定是算力问题。大模型,它尺寸越大,能力就越强,我们当然想在车上放一个最强的一个模型,但是车端是有算力限制的。我们现在做的潜空间推理,意义就是这个。当然,以后会做更多。

陈光:是的,车端模型参数量的进一步的提升,包括它在训练过程中如何能消费更多的数据、能理解更多的场景,这是第一个的挑战。

第二个挑战,就是怎么给用户开发更多行车和泊车的功能,进一步提升产品体验,特别是新功能能不能给用户带来更多惊喜。



升级:优质数据、

基座模型与仿真世界缺一不可

36氪:认知大模型的优化也依赖数据吗?

陈龙:数据肯定是一方面,我们持续需要高质量的数据,另一方面就是模型能力本身,尤其是基座模型。

刚刚提到,有些厂商会用开源的基座模型。这里有一个问题,你并不知道这些开源模型是怎么做预训练的,它可能没有很细致的数据清洗和标准,甚至还会使用到网上比较抽象的、危险的信息。这些东西反映到最终的驾驶行为时,可能会引发蝴蝶效应,造成很大风险。

但从头做基座大模型非常不容易,第一是需要一个很强的团队,然后是数据筛选和清洗工作,再要搭建调试自己的Infra系统,还要有一套评测指标。并且,一个版本模型发布出来后,可能几个月就已不再是领先架构了,所以这一套动作还要反复做。

所以认知大模型能优化到什么程度,不仅取决于企业在基座模型投入的人才和资源,还和企业对大模型趋势的判断有关。

36氪:所以小米现在All in认知大模型了?

陈光:现在行业对辅助驾驶有不同的探索路线,一类是我们现在做的XLA,直接引入认知大模型,另一类则希望用世界模型的生成和重建的能力去解决认知的问题。

当然,我们不认为认知大模型和世界模型是对立的,就算是多模态语言模型,也需要一个很好的仿真模拟环境。

我们其实是把两条技术路线结合起来了,并不是说车端用XLA的技术,我们在云端就要完全放弃世界模型。

36氪:世界模型还是有难以替代的优势。

陈光:至少在一些闭环仿真,就是将这种物理世界投射到这种数字空间的时候,世界模型是不可缺少的。

现在技术的焦点就是长尾场景,比如马路上滚落一个异形石块或者轮胎,真实世界你很难用实车去遇到,很难批量收集这样的场景。所以无论是世界模型还是XLA,都要在仿真模拟器里探索。

36氪:这算是行业级的技术新共识吗?

陈光:可能因为小米在一段式端到端的阶段就走得比较靠前,所以我们在认知大模型出现前,就觉得闭环仿真能力很重要,包括特斯拉在内,行业领头羊们对世界模型的重建和生产,应该都做得比较扎实了。

36氪:世界模型出现前,闭环仿真是怎么做的?

陈光:很难做,几乎只有静态场景,动态场景都依赖真实数据,所以以前大家总是会说“数据量很稀缺”。

36氪:但XLA已经可以“看懂”这些路面障碍物了,还需要这样的数据反复训练吗?

陈光:我们希望一个功能在真实给用户之前,都在一个模拟器里面完整去测过。

36氪:测过就能保证真实使用时的安全吗?

陈光:数字空间和世界模型,其实是一个漏斗的作用,它可以把大部分的问题都拦截住。对于剩下的问题,多模态大模型本身就具备泛化能力,我们希望通过它本身的认知和推理能力来提出更好的解决方案。这两者其实是一个结合的作用。

36氪:那小米会在世界模型上持续投入吗?未来迭代的方向会是什么?

陈光:今年我们在GTC上介绍了小米在世界模型上的新进展,也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025这些顶会上发表了近10篇世界模型相关的论文,这足以说明,小米高度重视世界模型。

方向的话,我觉得三个方面。

第一是真不真,这个可能跟咱们理解的完美真实不太一样。我举个例子,我们希望模仿的雨天,是摄像头上挂有水珠的那种真实的图像,而不是说模拟出一个绝对干净的雨天环境。我们希望模拟的情景,能和车端最后获取的信息一致,这样你的测试才有效果。

第二就是要很丰富。我今天可能想解决阳光直射场景的通行,过两天可能又希望解决大雨、大雾或大雪情况下的通行。所以能不能在不改变交通信息的情况下,只改变天气光照信息呢?

第三就是场景的编辑能力,你的数字资产要足够丰富,我能用这些信息模拟各种各样的场景。足够丰富,才有足够的作用。

36氪:听起来很复杂,小米在这已经投入多久了?

陈光:已经两年了。我回忆了一下,从24年上半年开始就有一些技术上的准备了。到24年末,小米的技术已经在行业和学术界得到一定认可。25年下半年就可以走到技术的收获期了,有一些重点比赛的冠军、论文之类的。

36氪:也就是说,小米在这方面已经具备明显优势了?

陈光:我们当然希望先发优势能一直保持下去,我们做的确实比较早,希望能对行业产生一些正向影响,大家一起来把这个事做扎实一些,最终其实也是服务于整个行业的产品体验嘛。



价值观:既要安全、也要体验

36氪:什么是好的辅助驾驶体验?

陈光:我觉得好的体验,最重要的事情一定是安全。不能给用户带来不安全或者不安心的产品,这个是我们当前最核心的一个事情。

36氪:为什么会把安全和安心拆开来讲?

陈光:从技术角度讲,你只要不碰撞就是安全。但用户对安全的感受,并不只是“不碰撞”。比如急刹车,用户不清楚系统为什么做出这样“过激”的行为,可能会有体感上的不适,也会产生“不安全”的感觉。

所以我们不光要保证辅助驾驶的技术维度的安全,也要保证给用户带来足够的安心感。只有既安全、又让人敢用、愿用,这样的产品体验才是完整的。

36氪:小米在安心感上,有什么心得吗?

陈光:我觉得是有一些新的进展的。

比如我们在路口盲区,会有一些预防性的减速,这就很像人类开车的思路,用户第一反应会是你做了这个动作,你懂这个场景。

再比如,前方即将进入拥堵路段了,我们的车不会走到最后一步、到非常极限的时候才做一脚急刹,而是说会早早的、防御性地降低速度。这也代表了我们在安全和安心感上的一些思考吧。

36氪:能否总结下小米辅助驾驶研发的性格,或者说是价值观?

陈光:怎么说呢,小米的价值观还是深刻影响了小米辅助驾驶团队的性格。我觉得和用户交朋友是最重要事情,从用户的角度去思考他们需要什么样的产品体验,再反过来去推进这个技术的迭代。

就比如从端到端到XLA,初期我们有些同事看好世界模型、有些同事更看好XLA,但深度讨论过后,大家最终是觉得XLA一旦做成,一定能给用户带来很酷的产品体验,所以就算再难,我们也冲了。

陈龙:是的,虽然我们小米的辅助驾驶的起步比较晚,可能我们这个发布的节奏也没有那么的快,但我们一定是把体验最好、最安全的这个产品送到用户手中。

从我的角度,我觉得我们也一直在践行第一性原理。因为我们坚信大模型可以帮助辅助驾驶解决一些关键问题,所以我们会做很多大模型的探索工作,最终希望把大模型的能力发挥出来,推动辅助驾驶朝更高阶能力继续演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北三男子营救落水女子四人均遇难,事发地被市民摆满献花,当地多方回应

河北三男子营救落水女子四人均遇难,事发地被市民摆满献花,当地多方回应

潇湘晨报
2026-04-08 17:53:24
反摆烂新规5月29日投票!NBA面临两大难题 追梦呼吁往死里罚

反摆烂新规5月29日投票!NBA面临两大难题 追梦呼吁往死里罚

罗说NBA
2026-04-09 06:23:35
阿尔忒弥斯2号女宇航员科克晒太空美照引热议,网友纷纷求她分享手臂锻炼妙招

阿尔忒弥斯2号女宇航员科克晒太空美照引热议,网友纷纷求她分享手臂锻炼妙招

Thurman在昆明
2026-04-08 09:00:59
广东加时赢5分!山东输6分,北京赢9分,上海大胜22分,排名大变

广东加时赢5分!山东输6分,北京赢9分,上海大胜22分,排名大变

老吴说体育
2026-04-08 22:09:50
太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

太解气!杜兰特霸气回怼狄龙:我最差赛季,都比你巅峰强!

田先生篮球
2026-04-08 16:40:24
曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型

曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型

IT之家
2026-04-08 11:33:06
苹果配陈皮太厉害!老中医用一辈子,省钱又实用

苹果配陈皮太厉害!老中医用一辈子,省钱又实用

开心美食白科
2026-04-08 21:25:15
研究了5.6万颗恒星后,天文学家发现:太阳似乎被精心设计过

研究了5.6万颗恒星后,天文学家发现:太阳似乎被精心设计过

观察宇宙
2026-04-08 20:32:34
骗走50亿被央视曝光!用小鲜肉的血抗衰,“捞金女王”这次真栽了

骗走50亿被央视曝光!用小鲜肉的血抗衰,“捞金女王”这次真栽了

翰飞观事
2026-04-08 17:13:46
天助C罗:1-1,C罗争冠劲敌遭沙特联第9逼平,落后利雅得胜利4分

天助C罗:1-1,C罗争冠劲敌遭沙特联第9逼平,落后利雅得胜利4分

侧身凌空斩
2026-04-09 01:56:47
什么?宋雨琦胸口这颗痣值800万?

什么?宋雨琦胸口这颗痣值800万?

言安堂
2026-04-08 07:36:26
春天百病起,用三种东西泡水喝,“抵过百药~”

春天百病起,用三种东西泡水喝,“抵过百药~”

环京快爆
2026-04-07 09:11:22
卢伟:李添荣在进攻端做出了巨大贡献,怀特塞德需要做些治疗

卢伟:李添荣在进攻端做出了巨大贡献,怀特塞德需要做些治疗

懂球帝
2026-04-08 23:05:08
刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

复转这些年
2026-04-06 22:24:11
伊朗媒体披露全部10项停战条款

伊朗媒体披露全部10项停战条款

财联社
2026-04-08 11:12:26
美伊突然停战!我朋友一夜之间亏了20万……

美伊突然停战!我朋友一夜之间亏了20万……

毯叔盘钱
2026-04-08 18:52:48
郑丽文骆武昌结婚13年未育,外界传闻与真实情况有别

郑丽文骆武昌结婚13年未育,外界传闻与真实情况有别

阿天爱旅行
2026-04-09 04:46:24
猪价跌到秦朝以来最便宜?更残酷的是猪种危机!

猪价跌到秦朝以来最便宜?更残酷的是猪种危机!

包不同
2026-04-08 23:10:44
汇丰:预计淘宝闪购年亏损达870亿元

汇丰:预计淘宝闪购年亏损达870亿元

陆新之谈商业
2026-04-07 19:42:05
央行数据曝光:41.5%家庭手握多套房,房价下跌后,他们有多难?

央行数据曝光:41.5%家庭手握多套房,房价下跌后,他们有多难?

老特有话说
2026-04-08 14:45:55
2026-04-09 07:32:49
36氪 incentive-icons
36氪
让一部分人先看到未来
151097文章数 2848721关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

数码
艺术
亲子
本地
公开课

数码要闻

最轻ThinkPad来了!ThinkPad X13 Gen 7发布

艺术要闻

陆俨少大气山水手卷18幅

亲子要闻

胡图图说他差几分就能兑换发卡

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版