网易首页 > 网易号 > 正文 申请入驻

小米汽车GTC分享:如何实现智驾「一年追三代」?

0
分享至

在3月18日的GTC大会上,来自小米汽车自动驾驶与机器人部的专家工程师杨奎元,带来了主题为「端到端全场景智能驾驶」的演讲。

借着小米日前全量OTA推送最新智驾功能,他详细介绍了小米在打通高速、城区,泊车等不同场景、实现连续智驾背后的技术支撑,其中包括了物理世界探索和物理世界建模,以及工程落地优化。

探索物理世界的全新时代

他认为,根据机器对物理世界探索的参与程度,可以分为两大阶段,第一个探索阶段由人类主导,对物理世界的建模也主要依赖于人类的大脑。

在这一阶段,典型的信息处理机器(如计算机、手机)没有自主移动能力,要通过人类整理的文字、图像、视频等数字化信息,来获取物理世界的部分描述。得益于这些人类记录的海量数据,也驱动了近期大语言模型的迅猛发展。

然而,人类通常只会记录对自身有价值的信息,例如拍摄有纪念意义的照片,但这对物理世界的记录并不连续也不完整,也就限制了机器对物理世界的全面认知。

随着具身智能的发展,机器开始直接参与到物理世界的探索中。比如汽车、机器人等,它们通过传感器观测物理世界,通过执行器在物理世界中自主移动,从而得到更全面、更连续的物理事件描述。

通过这些海量、连续的多模态数据,可以训练更全面的AI模型,持续提升机器在物理世界中的适应能力。

打好数据驱动的基础

以小米汽车为例,目前其产品包括已量产交付近一年的SU7系列、刚刚量产交付的SU7 Ultra以及即将量产的YU7。

在设计这些车型时,出于对物理世界探索和实践高阶智驾的需求,小米从外观设计以及传感器选型和安装上,就保证了不同车型间的硬件一致性,进而保证了数据在不同车型的通用性,打好规模化探索物理世界的硬件基础。

具体来讲,为了实现环境的完整观测以及全场景智驾功能,(如泊车场景的近距离盲区覆盖,高速场景的远距离探测,城区更宽入口的横向覆盖等),小米汽车在车身周围全系标配了11颗高清摄像头,形成车身周围360度无盲区的覆盖,高配版本也增加了前向激光雷达。

目前,参与物理世界探索的SU7车队规模已经超过18万辆,车队规模以每月超过2万辆的速度快速增长。去年年底,车队每天行驶总里程超过500万公里,目前每天行驶总里程已经接近1,000万公里。

当然,不同路段的覆盖频次并不相同,驾驶里程的快速爬升也带来了全场景数据的快速累积。

目前,小米已经打通全场景智驾的4个关键能力场景:停车场,ETC收费站、城区环岛、乡村道路。

杨奎元介绍称,端到端模型需要的训练数据,以连续的视频片段Clip为单位,每个Clip包含20秒左右的连续传感器数据。

在去年9月采用端到端模型训练时,小米使用了238万Clips,经过4个月的积累,训练数据已经增加到了1360万Clips,这也是小米下一个千万Clips端到端版本所用的训练数据量。

物理世界建模的「三大层」

有了丰富的物理世界数据后,第二部分就是物理世界建模。

小米将整个建模分为三层,第一层即为“Ot”(编者注:Data Observation Layer)原始的数据观测层。该层通过车身上多个高分辨率传感器,详细记录真实场景当前状态。

第二层即为“Zt”(编者注:Latent Feature Layer),是深度神经网络的隐式特征层,通过数据驱动的方式,形成对当前场景的理解。

第三层即为“St”(编者注:Explicit Symbol Layer),这是方便人理解和操作的显示符号层——由于数据观测层属于底层表达,机器无法直接理解,需要通过模型生成更高层的理解,用于决策规划,也就是隐式的特征表示。

在这一层,模型会解码出显式的符号表达,如静态的车道线斑马线等动态的行人车辆等,这些也是监督学习中,人工增值标注或者自动化增值标注的表达形式。

在端到端范式中,还会解码出自身的规划轨迹,比如在上图右一的场景中,绿色轨迹线代表了合理安全的礼让行为,红色轨迹线则代表了危险的不礼让行为。

不过,「三层建模」只是一种粗粒度的划分,每一层内部还可以细化为更多的层。比如图像金字塔中的多层分辨率图像,深度神经网络中不同隐层的特征表示等。

对于上述物理世界建模的三层表示,其具体对应的是深度神经网络中的输入层、隐式特征层和输出层——

数据观测层作为神经网络的输入者,其中包含了图像点云以及领航功能所需的导航信息,它们通过BEV编码网络得到隐式的特征表达;‍

隐式特征层通过不同的解码器,可以分别得到动态元素、静态元素以及自身的未来轨迹,其中动态元素在场景中分布较为稀疏、局部,且个体运动状态不同,需要单独维护各自的历史信息。

基于此,小米使用带有Memory的Sparse方案(编者注:稀疏特征建模)进行建模,静态元素则采用了相反的Dense方案(密集建模方案)进行建模。

“轨迹是在充分考虑了动静态信息之后解码生成的,最终还要通过人工设计的cost,融合其他障碍物计算的碰撞cost、车道线计算的偏离车道cost,以及横纵向计算的舒适性cost,共同用于约束轨迹的合理性。”杨奎元说道。

整个神经网络的训练,由人工定义在最后一层的Loss函数,其中包含动静态元素和真值之间的差异支撑。

「三大层」的作用及进展

杨奎元从下到上深入解读了「数据观测层,隐私特征层,显示符号层」:

数据观测层典型的信号就是视频流。目前,已经有了相对成熟的AI技术可以使用——如3GDS重建技术、Diffusion,Autoregression等生成技术,其中就有Sora、英伟达的Cosmos等生成大模型。

通过直接拟合原始数据的概率分布,加上额外使用隐式特征、显示符号等控制条件,就可以进行原始信号的生成。

他表示,这些模型目前生成速度较慢,主要在云端仿真物理世界,用于感知的闭环仿真评测,以及长尾数据的生成。

这些生成模型通常也需要使用隐式特征,但主要侧重于传感器细节信号的恢复。它们在理解任务上性能欠佳,不过最近也有一些工作开始尝试开发「同时用于生成和理解的隐式特征空间」。

由于和模型相关,直接基于隐式特征层进行持续预测的工作还不多。在智能驾驶领域,目前还没有成熟的相应基座模型,可以用于生成稳定的特征表达。

显示符号层类似自然语言表达,人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,可以通过规则代码的方式和模型结合,完成时序上的建模。

例如,后处理经常使用的运动学模型,如匀速模型、匀加速模型等,还有规控常用的轨迹采样搜索和优化等。在端到端范式中,显式符号层也可以用于显式定义cost,对应强化学习中的Reward驱动策略学习。

联合「三层」进行时序建模

最近,几家学研机构及企业在显示符号层通过增大数据量,也验证了Scaling Law对智驾任务的有效性。

结合各层时序建模的优秀实践,小米也在尝试将三层表达联合起来进行时序建模。

杨奎元表示,在车端推理时,预测未来帧的传感器数据不是必选项。

在云端训练时,离线录制的未来帧数据,便可以提供模型训练的自监督信号。由此,在深度神经网络模型上,将中间的隐式特征在时序维度上拓展到未来帧,由此形成完整的时空神经网络模型,统一由数据驱动学习。

具体来说,由于动静态元素在未来帧的变化方式不同,静态元素的变化主要和自车运动相关,而动态元素的变化则由它们各自的运动和自车运动共同决定。因此,在未来帧预测变化时,小米同样对动静态元素分开处理。

为了使得上述模型在云端能够高效训练,在车端能够高效推理,小米联合英伟达进行了大量的工程优化。

在云端优化上,基于英伟达Triton重构云端推理Pipeline,可将自动化标注大模型推理的利用率提升了一倍。

基于DALI、CV-CUDA优化训练瓶颈,小米将GPU率利用率提升了30%。

另外,由于车端算力相对有限,小米在模型设计时充分考虑了数据的内在特性,如稀疏性、2D到3D几何的对应关系等,减少了模型不必要的连接。

另外,在最新的Thor平台上,整体性能相对初个部署版本加速了一倍。为了进一步减少GPU的算力消耗,小米将图像前处理,点云数据压缩,offload的到了VIC、ISP等异构计算单元上。

加紧开发「千万clips」端到端

在去年年底的技术发布会上,雷军首次公开了物理世界建模的几项关键技术。其中包括适用于不同场景的变焦BEV技术、应对一般障碍物的超分辨率Occ技术,以及感知决策一体化模型等。

基于物理世界建模能力的提升,加上相应的工程落地优化,2024年小米在智能驾驶上实现了「一年追三代」的快速追赶——从基于高精地图模块化架构,到去高精地图模块化架构,再到端到端架构。

在场景拓展方面,去年3月份量产交付时,SU7全系搭载了高速领航、主动安全、代客泊车、辅助泊车等成熟刚需功能。在后续OTA升级中,首先开通了十城的城区领航,经过三个月拓展到了全国都能开,以及最新全量推送的端到端全场景智驾。

目前,小米正在持续开发基于「千万clips」的端到端版本。

总结来看,小米汽车对于交通场景具备高阶智驾能力的量产车,已经具备了规模化探索物理世界的能力,形成了必要的数据基础同时,借助数据驱动的深度学习模型,已经具备系统化建模物理世界的三层时序模型框架。

在上述物理世界建模能力的基础上,小米持续交付的智驾功能有相对简单的高速泊车场景,拓展到了复杂的城区场景,近期打通了各场景,形成了全场景车位到车位的完整体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东:女子给男性剪发,穿着难以想象,网友:正经吗?

广东:女子给男性剪发,穿着难以想象,网友:正经吗?

心轩专栏
2025-11-02 21:59:42
央视剧《隐锋》首播收视第1,观众评价一针见血,标准谍战烂剧

央视剧《隐锋》首播收视第1,观众评价一针见血,标准谍战烂剧

农城浪子
2025-11-12 21:52:27
禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

影孖看世界
2025-11-12 18:58:49
四川男子晒藏酒,满屋茅台让藏友嘲笑:这样收藏不如喝掉,咋回事

四川男子晒藏酒,满屋茅台让藏友嘲笑:这样收藏不如喝掉,咋回事

涛哥美食汇
2025-10-30 14:56:03
女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

妍妍教育日记
2025-11-10 18:21:35
北京退休老教授在家养病整整10年,民警破门后,直接愣在原地

北京退休老教授在家养病整整10年,民警破门后,直接愣在原地

罪案洞察者
2025-05-09 09:52:30
热议U22男足输越南:五后卫+偏哨都输了,非要国际日去忙全运

热议U22男足输越南:五后卫+偏哨都输了,非要国际日去忙全运

懂球帝
2025-11-12 22:16:07
收到中方警告后,高市早苗知道事情闹大了,火速改口:我就是假设

收到中方警告后,高市早苗知道事情闹大了,火速改口:我就是假设

博览历史
2025-11-11 16:16:03
再见洛佩斯!一换一得到15+6+5猛将,恭喜哈登!快船队起飞

再见洛佩斯!一换一得到15+6+5猛将,恭喜哈登!快船队起飞

林夕说球
2025-11-12 06:09:06
【现场】背负压力兑现豪言 广东全运男篮主场加冕!

【现场】背负压力兑现豪言 广东全运男篮主场加冕!

体坛周报
2025-11-12 23:25:10
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
曝阿莫林当众痛斥铁腰变懒!曼联加速引进安德森,恐需破纪录报价

曝阿莫林当众痛斥铁腰变懒!曼联加速引进安德森,恐需破纪录报价

罗米的曼联博客
2025-11-12 07:36:43
吴石案发后,他的小舅子王济甫空军上校被关15年,结局何等凄惨?

吴石案发后,他的小舅子王济甫空军上校被关15年,结局何等凄惨?

云霄纪史观
2025-11-11 15:21:45
全运会乒乓球男单8强出炉,王楚钦樊振东领衔

全运会乒乓球男单8强出炉,王楚钦樊振东领衔

体坛周报
2025-11-12 22:53:15
正规军也太不正规了吧!

正规军也太不正规了吧!

贵圈真乱
2025-11-12 10:40:42
右边“细狗”左边“绿巨人”!男子撸铁只练左侧,差距判若两人

右边“细狗”左边“绿巨人”!男子撸铁只练左侧,差距判若两人

狸猫之一的动物圈
2025-11-11 10:42:42
记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

懂球帝
2025-11-12 17:41:06
首都被炸!巴基斯坦彻底怒了!当天进入战争状态,印度:这次怕是玩大了

首都被炸!巴基斯坦彻底怒了!当天进入战争状态,印度:这次怕是玩大了

小鱼爱鱼乐
2025-11-12 22:43:25
陈伟霆妈妈来北京看孙子,何穗住别墅产后24天小腹平,孕期胖10斤

陈伟霆妈妈来北京看孙子,何穗住别墅产后24天小腹平,孕期胖10斤

阿纂看事
2025-11-12 10:58:28
男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

荷兰豆爱健康
2025-10-31 14:56:32
2025-11-13 00:11:00
RoboX
RoboX
关注智能汽车、机器人在内的具身智能前沿科技
194文章数 2关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

本地
时尚
亲子
公开课
军事航空

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

亲子要闻

孩子出现抽动以后会影响智力吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版