网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

用大视觉模型开车，理想和清华叉院联手了

2024-03-10 11:55:51　来源: 智能车参考

北京举报

0

分享至

曹原发自副驾寺
智能车参考|公众号AI4Auto

在大语言模型让语音助手开始“说学逗唱”的时候，另一边的大视觉模型已经发力自动驾驶了。

而且一出手，目标就是解决自动驾驶老大难的长尾问题。

新自动驾驶系统DirveVLM，融合视觉语言模型VLM的视觉理解、推理能力，让自动驾驶系统能认出来道路上倒着的自行车、横穿马路的牛、甚至是打手势的交警，并作出正确驾驶决策。

更重要的是，这还是个端到端系统，在英伟达Orin上就能跑，处理时间只需0.3s。

清华叉院联合理想汽车出品。

DriveVLM：长尾场景也会开

先看看论文中展示DriveVLM处理的几个场景。

场景一，一处城市开放道路，没有明显车道线，左边是对向车辆，比较拥挤；前方有一辆三轮车，路中央还有一位交警在指挥交通。

DriveVLM识别出这位交警在指挥左边道路的交通情况，并且由于前面的三轮车正在缓慢行驶，系统作出“缓慢直线行驶”的决策。

并且解释道，这么做是因为需要和前方及两侧车辆保持安全距离，所以需要缓慢直行。

场景二，阴雨天的城市道路，车辆准备向右前方道路行驶，但这条路上有一行人骑着电动车迎面而来。

DriveVLM识别出电动自行车位于车辆前方道路右侧，结合车辆的前进方向，作出“车辆先减速，右转，并缓慢直行”的决策。

并给出说明，减速是为了等骑车的人通过，待其通过后车辆再右转。

场景三，前方道路可能发生事故，车道前方有一辆自行车倒在路上，还有交警和一位行人站在道路上。

DriveVLM判断，由于自行车阻挡了前方道路，车辆又要前行，因此要“先减速，再向右变道，并缓慢直行”的决策。

同时系统还特别解释，减速并且确保右后方没有车辆驶来时，再向右变道。

不仅如此，高速公路上偶遇过路的牛群、路的另一侧即将倒下的树木、通过只够单车通过的桥、只有两条车辙的雪路等非常规场景，DriveVLM也都能一一识别并应对。

并且，DriveVLM除了能处理这些corner case，还能提供直观的语言界面，提供与用户的交互功能。

系统能够分析道路情况、天气条件、会影响本车前进的因素，并作出对应的驾驶决策，还能给出轨迹预测。

而这一切，除了基础的自动驾驶系统外，还离不开大模型的参与。

DriveVLM：大模型应用于行车域

实际上，DriveVLM是在传统的自动驾驶系统上，增加了大视觉语言模型（VLM）的能力。

由于VLM在视觉理解和推理方面的能力突出，所以结合该大模型能力后，DriveVLM不仅具备基本的自动驾驶能力，而且还能够理解输入的图像信息，并作出对应驾驶决策。

摄像头输入的图像序列先由视觉编码器进行处理，生成图像tokens，并通过自注意力机制捕捉其中的重要特征，与VLM的组成部分大语言模型进行对齐。

随后，大语言模型通过思维链（chain-of-thought，CoT）进行推理，主要包含三个模块，场景描述，场景分析和分层规划。

场景描述即输出驾驶环境的语言描述，包括天气状况、时间、道路类型和车道状况，方便系统判断是否选择更谨慎的驾驶方式（比如在夜间或者能见度较低的时候），以及选择是否需要变道。

描述完场景后，系统则开始场景分析，主要对关键对象进行分析，即会影响车辆驾驶决策的。

关键对象的判断要素包括三个，静态属性、运动状态和特定行为，比如正在做手势的交警就要列为关键对象，因为这时首先要参考交警的手势而不是交规。

在分析完这三个要素后，DriveVLM将预测每个关键对象对本车的潜在影响，比如路边醉酒的行人可能走上马路，挡住前方道路。

而这就增强了传统自动驾驶系统对交通环境的判断和理解，能够更加适应不常见，特别是训练时未见过的长尾场景。

这一模块的最后，系统还会生成场景摘要，分析总结当前场景下所有关键对象和环境描述，并与驾驶路线、车辆位置和速度信息结合，给出规划提示。

最后就是分层规划模块，DriveVLM主要分三部分进行：基础行为（meta-actions）、决策描述和轨迹航点。

基础行为包括17类，包括加速、减速、左转、变道、轻微位置调整、等待等等。

而决策描述则是在基础行为之上，结合场景里的关键主体（行人、红绿灯、车道等）和持续时间，给出更详细、简洁和可操作的驾驶决策。

比如在面对道路一侧有即将倒下的树木时，DriveVLM给出的决策是：立刻减速停车，在倒下的树木被清除后再继续行驶。

并且在给出决策描述后，系统还可以生成相应的轨迹航路点，实现语言处理模块和空间导航的无缝集成。

不过，VLM大模型虽然能帮助系统复杂场景理解，但模型巨大、反应速度慢，这就让DriveVLM无法直接应用于自动驾驶系统这种必需实时响应和决策能力。

所以，研究团队还推出DriveVLM-Dual，可集成3D物体感知进行关键对象分析，还能把轨迹航路点连点成线，输出线性的轨迹结果，并且降低延迟。

并且，团队还特意从大型数据库中挖掘出各种具有挑战性的长尾场景，并选取关键帧进行注释，给出了规划场景理解数据集SUP-AD。

最后，团队在常用的自动驾驶数据nuScenes和SUP-AD上都验证了效果。

结果显示，DriveVLM在SUP-AD上，对于场景的理解以及给出的基础行为都实现SOTA，还超过GPT-4V。

另一边在nuScenes上，DriveVLM-Dual在规划任务方面取得SOTA。

并且，团队还在英伟达Orin芯片上运行了DriveVLM-Dual，DriveVLM-Dual只需0.3s就能完成单一场景的推理，在保证推理结果的情况下，还能兼顾推理时间。

这意味着DriveVLM-Dual不仅是一个能快速响应、解决corner case的自动驾驶系统，而且还能在端侧部署，属于大模型加持下的新一代端到端自动驾驶系统。

研究团队简介

已经进入智能驾驶第一梯队的理想汽车和大佬云集的清华叉院，联合推出了DriveVLM。

来自叉院的Xiaoyu Tian和Junru Gu，以及来自理想汽车的Bailin Li，对本文有同等贡献。

其中，Xiaoyu Tian是目前就读于清华叉院的博士生，硕士毕业于清华大学软件学院，研究方向包括计算机视觉、自动驾驶、多模态学习等等。

而Bailin Li则是理想汽车静态感知部软件架构师。

他本科毕业于哈尔滨工业大学机械工程专业，还拥有密歇根大学机器人技术工程硕士学位，在2021年入职理想汽车。

本文的其他作者中，Yicheng Liu和胡晨旭也来自叉院，都是博士在读，胡晨旭还是清华MARS实验室的研究助理。

△胡晨旭

而Yang Wang、Kun Zhan和Peng Jia则来自理想汽车，其中Kun Zhan是理想汽车高级研发工程师，Peng Jia是AI基础设施高级总监。

作者还包括理想汽车自动驾驶副总裁郎咸朋，拥有中科大博士学位。

他曾在中国自动驾驶黄埔军校百度Apollo工作过，2018年入职理想汽车，2020年升任理想汽车副总裁，一直负责理想汽车自动驾驶业务。

本文的通讯作者是赵行，目前是清华叉院的助理教授，以及MARS实验室首席研究员。

赵行拥有麻省理工博士学位，师从计算机视觉大牛Antonio Torralba。来清华大学之前曾就职于美国自动驾驶巨头之一的Waymo，担任研究科学家，在谷歌学术上被引次数达到16804次。

在他们的共同努力之下，端到端、能理解城市道路中复杂的长尾场景的自动驾驶系统DriveVLM就此诞生。

随着AIGC产业的浪潮，大模型在车圈智能化下半场的竞争中，参与度越来越高。

从端侧来划分，应用于自动驾驶的大模型可以分为云端大模型和车端大模型两类。

比如毫末智行的雪湖·海若DriveGPT、华为盘古大模型、百度文心大模型，就是部署在云端，可以在场景生成、数据标注等方面，训练和优化自动驾驶系统的感知和决策能力。

在车端，现在已经成为行业标配的“BEV+Transformer”，则是主要用于优化车端系统的感知能力。

还有可以应用在车端的感知决策一体化的端到端大模型，比如特斯拉FSD V12、商汤等联合推出的UniAD，以及本文的DriveVLM。

大模型在AI行业带来的变革有目共睹，对于细分自动驾驶赛道来说，在大模型的帮助下，相信距离落地完全自动驾驶的那一天，也不远了。

项目主页：

https://tsinghua-mars-lab.github.io/DriveVLM/

论文传送门：

https://arxiv.org/pdf/2402.12289.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

何小鹏：未来一年半智驾迎30倍提升，大模型时代难有Tier 1

HiEV 2024-05-30 13:22:17
0 跟贴 0
从被裁员的理想员工那里得知，理想汽车本次裁员的比例远超 18%

可爱小米米 2024-05-30 19:47:28
28 跟贴 28

5月20日-26日新势力周销量，理想第一，小米第六超小鹏

玩车专家1 2024-05-28 14:56:36
404 跟贴 404

打脸？吉利汽车：雷神发动机全球最高热效率46.1%！比亚迪回应：像没量产的我们一大把，不想说而已【附插电式混动汽车市场现状分析】

前瞻网 2024-05-30 14:23:01
1392 跟贴 1392
理想汽车公布最新销量排名周销0.86万拿下新势力第一

手机中国 2024-05-28 13:22:04
97 跟贴 97

重磅！欧盟将于7月4日正式宣布对中国产电动汽车加征关税？

AI商业论 2024-05-30 16:58:31
722 跟贴 722

阿维塔夜间高速上智驾识别大象：主动将车缓慢刹停，成功避免撞上大象！华为智驾帮车主躲过一劫

和讯网 2024-05-30 16:37:10
592 跟贴 592
小米SU7农村车主一夜9次起床看车：没车库不建议买车

手机中国 2024-05-30 11:52:08
347 跟贴 347

L3牌照发放半年谈：这些车企是否按下自动驾驶“快进键”？

一品汽车 2024-05-29 16:35:09
0 跟贴 0
重磅！以国家安全为由，美国或禁止进口中国产可联网电动汽车

北美商业电讯 2024-05-30 17:25:01
9 跟贴 9
武汉无人车致堵；FF或无法盈利；丰田脱碳发动机；美国电车政策 | 5月30日汽车行业日报

汽车圈大小事儿 2024-05-30 01:09:48
0 跟贴 0
日产宣布召回超17万辆汽车：驾驶辅助系统存在缺陷

智车情报局 2024-05-30 16:57:38
1 跟贴 1
理想汽车：将加速L6产能爬坡目前交付预计等待5-8周

手机中国 2024-05-28 12:38:05
19 跟贴 19
当事人回应红十字会直升机送烤全羊：系私人飞机，演练后忘记撕标

北京青年报 2024-05-30 14:26:52
38320 跟贴 38320
一哄而上，打不赢美国高科技

华商韬略 2024-03-14 10:07:05
3783 跟贴 3783
太惨！广州海珠区一充电桩发生大火，多辆车被烧毁！车主损失惨重

小石爱科普 2024-05-30 04:11:03
123 跟贴 123
曝幼儿园里的一幕：小朋友认真听老师讲解，屏幕上显示"间谍可能就在你我身边"

互联网大聪明 2024-05-29 13:58:28
30665 跟贴 30665
在执行这个政策前，请先查查官员的财产

顾礼先生 2024-05-30 16:21:19
5591 跟贴 5591
广州三元里村的标语打了谁的脸？禁电动车后续：档口关门、退租

阿平爱生活23 2024-05-30 15:20:38
251 跟贴 251
萝卜快跑无人驾驶车辆致拥堵遭大量投诉，武汉相关部门已介入

澎湃新闻 2024-05-30 13:57:29
10538 跟贴 10538
美国司法部逮捕1名中国公民外交部回应

外交部网站 2024-05-30 18:46:41
1436 跟贴 1436
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
367 跟贴 367
快讯｜特斯拉赢了！

封面新闻 2024-05-30 15:59:26
1178 跟贴 1178
600元一亩交钱浇地：黑龙江四川尝鲜水资源承包，种粮难全球领先

大风文字 2024-05-30 15:16:26
8114 跟贴 8114
黄仁勋身家首次突破1000亿美元

界面新闻 2024-05-30 08:43:14
24228 跟贴 24228
行业内卷，租车公司又有新套路！网约车司机上路就被坑6000元

网车观察V 2024-05-30 18:17:07
1 跟贴 1
天津交警对违停车不再提醒15分钟驶离，直接罚款200元？说清楚了

边塞沿海 2024-05-29 21:37:39
123 跟贴 123
湖南六旬老汉“去世”，家人花15万举办葬礼，3年后他又回来了

琪琪故事记 2024-05-30 08:12:42
0 跟贴 0
确认！武大女选调生已离职，整个学校被牵连，野妇论导师也逃不了

影孖看世界 2024-05-30 21:03:00
835 跟贴 835
人形机器人的崛起：从古老梦想到眼前现实

通信世界 2024-01-16 21:32:34
3 跟贴 3
海关总署：即日起，允许符合相关要求的俄罗斯牛肉（含可食用牛副产品）进口

每日经济新闻 2024-05-30 14:01:40
9362 跟贴 9362
余承东称为“科技车皇”的问界M9大定超8万！首批车主画像：平均家庭税后年收入92万！理想L9是最大竞争对手

和讯网 2024-05-28 13:13:10
1708 跟贴 1708
阿里巴巴限制俄罗斯业务，速卖通拒绝卢布付款并停止向俄罗斯发货

火星宏观 2024-05-30 06:00:02
15263 跟贴 15263
董宇辉深圳打出租车,却被司机拒绝,司机的回应超搞笑

娱最资讯 2024-05-30 19:16:28
24 跟贴 24
中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

每日经济新闻 2024-05-30 17:03:20
1242 跟贴 1242
正式登场：乌克兰F-16首次执行任务！乌军收复多块失地

项鹏飞 2024-05-30 19:39:35
395 跟贴 395
苟仲文被查！8天前还露面，曾因国足成绩不好“作检讨”

政知新媒体 2024-05-30 15:59:15
2541 跟贴 2541
2024投什么？先来看看人形机器人吧｜钛媒体创投家

钛媒体APP 2024-01-11 18:38:10
0 跟贴 0
专家：如乌有权用西方武器打击俄境内，那俄也有权打击北约领土

参考消息 2024-05-30 15:10:09
2396 跟贴 2396
49幅人体摄影，这就是最美的风景！

国际艺术大观 2024-05-27 00:03:02
4 跟贴 4

谭丕创任广西壮族自治区副主席

新京报

2024-05-30 10:44:05

抗癌网红风哥澳洲去世！生前免费治疗，入住临终关怀病房也没花钱

抗癌网红风哥澳洲去世！生前免费治疗，入住临终关怀病房也没花钱

裕丰娱间说

2024-05-29 21:25:41

健身女生真敢穿，丝袜与瑜伽裤的结合，你见过吗？如何选瑜伽裤？

健身女生真敢穿，丝袜与瑜伽裤的结合，你见过吗？如何选瑜伽裤？

白宸侃片

2024-05-10 10:10:35

不到东京，不能理解日本的温情与冷漠

不到东京，不能理解日本的温情与冷漠

日本通

2024-05-03 10:32:41

小米SU7农村车主一夜9次起床看车：没车库不建议买车

小米SU7农村车主一夜9次起床看车：没车库不建议买车

手机中国

2024-05-30 11:52:08

瑞典援乌战略武器——两架预警机，乌军F-16战力倍增

瑞典援乌战略武器——两架预警机，乌军F-16战力倍增

移光幻影

2024-05-29 18:47:53

诺贝尔物理学奖获得者在重庆设立工作站，市委书记会见

诺贝尔物理学奖获得者在重庆设立工作站，市委书记会见

澎湃新闻

2024-05-30 22:56:29

记者：广厦前锋王庆明成为自由球员，将前往塞尔维亚进行特训

记者：广厦前锋王庆明成为自由球员，将前往塞尔维亚进行特训

懂球帝

2024-05-30 17:40:10

4年1.28亿！联盟倒数第一！勇士做正确决定，格林没有说谎

4年1.28亿！联盟倒数第一！勇士做正确决定，格林没有说谎

一才说个球

2024-05-30 12:29:52

两名高管先后被判处死刑的中国华融，到底是什么来头？

两名高管先后被判处死刑的中国华融，到底是什么来头？

大胖说科普

2024-05-30 14:29:28

今天，蔡振华来无锡啦！

无锡发布

2024-05-30 19:29:49

A股，情况不对劲？预判失误，明日（5月31日）大盘会这样走

A股，情况不对劲？预判失误，明日（5月31日）大盘会这样走

程夏夏

2024-05-30 15:35:39

1958年，一名干部斗胆问毛主席：您相信1亩地能产几万斤粮食吗？

1958年，一名干部斗胆问毛主席：您相信1亩地能产几万斤粮食吗？

南书房

2024-05-24 19:10:02

比恒大还大的雷区出现了，价值高达10万亿，这回许家印可不孤单了

比恒大还大的雷区出现了，价值高达10万亿，这回许家印可不孤单了

简读视觉

2024-04-13 08:40:03

无忌影像｜专访：尼古拉·贝尔

色影无忌

2024-05-23 12:10:56

黄奇帆：房地产的负债率都飙到90%了，房价怎么可能还会往上涨！

黄奇帆：房地产的负债率都飙到90%了，房价怎么可能还会往上涨！

名岂文章著

2024-05-20 19:28:35

媒体人谈苟仲文：不能说他对中国足球的所有决策都是错的

媒体人谈苟仲文：不能说他对中国足球的所有决策都是错的

直播吧

2024-05-30 16:14:09

苟仲文被查！曾见证陈戌源、杜兆才上任怒斥中国足协“没文化”

苟仲文被查！曾见证陈戌源、杜兆才上任怒斥中国足协“没文化”

念洲

2024-05-30 18:46:34

国务院重磅发布！

证券时报

2024-05-29 21:34:05

活久见！王思聪罕见发文祝福汪小菲新婚，大S的评论区却炸锅了！

活久见！王思聪罕见发文祝福汪小菲新婚，大S的评论区却炸锅了！

娱乐的小灶

2024-05-30 20:09:21

智能车参考

在这里看懂智能车产业变革

1172文章数 3498关注度

往期回顾全部

汽车要闻

年内上市/纯电和增程可选阿维塔07实车谍照曝光

头条要闻

日本"防卫白皮书"就台海局势下判断：冲突或一触即发

头条要闻

日本"防卫白皮书"就台海局势下判断：冲突或一触即发

体育要闻

聪明的李凯尔，开窍的森林狼

娱乐要闻

法国这一夜，45岁章子怡惊艳世界！

财经要闻

卷成麻花的新茶饮：以价换量能突围吗？

科技要闻

"车顶维权"女车主被判致歉赔偿特斯拉17万

态度原创

亲子

游戏

时尚

公开课

军事航空

亲子要闻

姐弟俩会争宠？姐姐摔跤大哭，2岁弟弟暖心安慰，两人相处真逗

Epic喜加一：《骑士精神2》免费领、下周神秘游戏

这场“难人”的考试，怎么就黄子弘凡毕了业？

公开课

近视只是视力差？小心并发症

军事要闻

以色列战时内阁表态：2024年就是战争年

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版