网易首页 > 网易号 > 正文 申请入驻

下一代“多模态大模型+端到端”架构Senna:智驾决策规划全新范式

0
分享至

概述

端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(Large Vision-Language Models,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型+端到端”的下一代架构,实现安全,高效,拟人的智能驾驶。经多个数据集上的大量实验证明,Senna具有业界最优的多模态+端到端规划性能,展现出强大的跨场景泛化性和可迁移能力。

Senna解决的研究问题

此前基于大模型的自动驾驶方案,往往将大模型直接作为端到端模型,即直接用大模型预测规划轨迹或者控制信号,但是大模型并不擅长预测精准的数值,因此这种方案并不一定是最优解。此前神经学的研究表明,人脑在做细致决策时,层次化的高维决策模块和低维执行模块组成的系统起到了关键的作用。例如,当想要左转的驾驶员看到红绿灯由红变绿,大脑中首先会思考,现在红绿灯变绿了,因此我可以加速启动通过路口。然后再通过“打转向灯”,“踩油门”等一系列动作完成通过路口这个目标。基于上述观察,Senna主要尝试探索和解决三个问题:

(1)如何有效地结合多模态大模型和端到端自动驾驶模型?

Senna采用解耦的行为决策-轨迹规划思路,多模态大模型在大规模驾驶数据上微调,以提升其对驾驶场景的理解能力,并采用自然语言输出高维决策指令,然后端到端模型基于大模型提供的决策指令,生成具体的规划轨迹。一方面,使用大模型预测语言化的决策指令,可以最大利用其在语言任务上预训练的知识和常识,生成合理的决策,并且避免预测精确数字效果欠佳的缺陷;另一方面,端到端模型更擅长精确的轨迹预测,将高维决策的任务解耦,可以降低端到端模型学习的难度,提升其轨迹规划的精确度。

(2)如何设计一个面向驾驶任务的多模态大模型?

驾驶依赖于准确的空间感知,目前常见的多模态大模型没有针对多图输入进行专门优化,此前针对驾驶任务的大模型或者仅支持前视输入,缺乏完整的空间感知,存在安全隐患;或者支持多图输入,但是并没有进行细致的设计,或针对其有效性进行验证。

为了解决这些问题,我们提出了Senna,Senna包含两个模块,一个驾驶多模态大模型 (Senna-VLM) 和一个端到端模型(Senna-E2E),相比于通用的多模态大模型,Senna-VLM针对驾驶任务做出如下设计:首先,针对驾驶的大模型需要支持多图从而可以输入环视和多帧的信息,这对于准确的驾驶场景理解和安全非常重要。最初,我们尝试简单基于LLaVA-1.5模型加入环视多图输入,但是效果并不符合预期。在LLaVA中,一张图像需要占用576个token,6张图则需要占用3456个token,这几乎要接近最大输入长度,导致图像信息占用的token数量过多。因此Senna-VLM对图像编码器输出的图像token做进一步特征压缩,并设计了针对环视多图的prompt,使得Senna可以区分不同视角的图像特征并建立空间理解能力。

(3)如何有效地训练面向驾驶任务的多模态大模型?

在有了适合驾驶任务的模型设计后,有效地训练LVLM是最后一步。这部分包括两方面的内容,数据和训练策略。在数据方面,此前工作提出了一些策略,但是很多并不是针对规划服务,例如检测和grouding。另外,很多数据依赖于人工标注,这限制了数据的大规模生产。在本文中,我们首次验证了不同类型的问答数据在驾驶规划中的重要性。具体来说,我们引入了一系列面向规划的问答数据,旨在增强Senna对驾驶场景中与规划相关的线索的理解,最终实现更准确的规划。这些问答数据包括驾驶场景描述、交通参与者的运动意图预测、交通信号检测、高维决策规划等。我们的数据策略可以完全通过自动化流程实现大规模生产。至于训练策略,大多数现有方法采用通用数据预训练,然后针对驾驶任务微调。然而,我们的实验结果表明,这可能不是最佳选择。我们为 Senna-VLM 提出了一种三阶段训练策略,包括混合数据预训练、驾驶通用微调和驾驶决策微调。实验结果表明,我们提出的三阶段训练策略可以实现最佳的规划性能。

Senna的关键创新

在模型层面,Senna提出层次化的规划策略,可以充分利用大模型的常识知识和逻辑推理能力,生成准确的决策指令,并通过端到端模型生成具体的轨迹。另外,Senna设计了针对环视和多图的策略,通过图像token压缩和精心设计的环视prompt,有效提高了多模态大模型对驾驶场景的理解。

在数据方面,我们设计了多种可以大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些问答数据对于Senna生成准确的决策起到了关键作用。

在训练层面,我们提出三阶段的大模型训练策略,不仅提升了Senna在驾驶场景的表现,且有效保留了其常识知识而不至于出现模式坍塌的问题。

Senna的实验及应用效果

基于多个数据集上的大量实验表明Senna 实现了state-of-the-art的规划性能。实验结果的亮点在于,通过使用在大规模数据集上预训练的权重并进行微调,Senna 实现了显著的性能提升,与没有预训练的模型相比,平均规划误差大幅降低了27.12% ,碰撞率降低了33.33%,这些结果验证了 Senna 提出的结构化的决策规划策略、模型结构设计和训练策略的有效性。Senna强大的跨场景泛化性和可迁移能力,展现出成为下一代通用智驾大模型的潜力。

未来探索方向

Senna初步探索并验证了基于语言化的决策将大模型和端到端模型结合的可行性。下一步,我们将利用更精细的语言决策,并基于决策信息以可控的方式实现个性化的轨迹规划,并在可解释性、闭环验证等方面进一步探索优化。相信Senna将会激发行业在该领域的进一步研究和突破。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子住院被朋友殴打后昏迷,20多天后死亡 法院:死亡结果属多因一果,打人者被判三缓三

女子住院被朋友殴打后昏迷,20多天后死亡 法院:死亡结果属多因一果,打人者被判三缓三

红星新闻
2026-05-22 21:27:48
乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

乌军收复590平方公里领土,俄呼吁国际社会阻止乌袭击炼油厂

史政先锋
2026-05-23 14:58:09
死这么多人,你们是干什么吃的?

死这么多人,你们是干什么吃的?

新海言
2026-05-23 13:30:19
反对“躺平”,做光荣的“基本盘”

反对“躺平”,做光荣的“基本盘”

据说无据
2026-05-22 16:19:56
刚刚!黄仁勋闪电抵台!

刚刚!黄仁勋闪电抵台!

EETOP半导体社区
2026-05-23 18:38:15
国内将逐渐停止“心脏支架”手术,做完人就废了?告诉你大实话

国内将逐渐停止“心脏支架”手术,做完人就废了?告诉你大实话

芹姐说生活
2026-05-22 16:18:20
李显龙最新涉华表态

李显龙最新涉华表态

环球时报国际
2026-05-23 15:52:25
场均38+14!26岁!!他跟腱断裂了!

场均38+14!26岁!!他跟腱断裂了!

柚子说球
2026-05-23 19:55:25
把女性私处P图狗身上,突破法律与道德人伦红线!

把女性私处P图狗身上,突破法律与道德人伦红线!

乔志峰
2026-05-23 09:48:44
诺兰新片时长曝光:近3小时,看完要憋住

诺兰新片时长曝光:近3小时,看完要憋住

生活观察员啊
2026-05-23 00:57:13
俄罗斯内部全面崩盘:高层分裂、寡头认败、民心暴跌、军工破产

俄罗斯内部全面崩盘:高层分裂、寡头认败、民心暴跌、军工破产

世界探索发现
2026-05-23 20:52:46
许家印的靠山,被起诉了

许家印的靠山,被起诉了

哲空空
2026-05-22 13:40:53
窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

天津生活通
2026-05-23 14:47:55
英冠附加赛决赛大冷!赫尔城1-0绝杀米堡,下赛季回英超分1亿镑

英冠附加赛决赛大冷!赫尔城1-0绝杀米堡,下赛季回英超分1亿镑

体育知多少
2026-05-24 00:48:39
稀土被断120天!高市派人赴华:当着21国的面,要中国取消禁令

稀土被断120天!高市派人赴华:当着21国的面,要中国取消禁令

共工之锚
2026-05-23 14:04:40
网传酉阳女商人色诱十数名官员以视频要挟拿工程赚千万资产被抓!

网传酉阳女商人色诱十数名官员以视频要挟拿工程赚千万资产被抓!

兵叔评说
2026-05-23 12:57:43
90人遇难!实控人任铁柱被控制,放羊娃到百亿身家,再传奇也没用

90人遇难!实控人任铁柱被控制,放羊娃到百亿身家,再传奇也没用

伴史缘
2026-05-23 20:35:48
中央开始严查!多地机关,事业单位大整顿!这几类人受影响最大

中央开始严查!多地机关,事业单位大整顿!这几类人受影响最大

职场资深秘书
2026-05-23 11:09:48
周冬雨“拔萝卜”的瓜!

周冬雨“拔萝卜”的瓜!

八卦疯叔
2026-05-23 11:01:00
专家:瓦斯爆炸几乎不存在“黄金救援期”

专家:瓦斯爆炸几乎不存在“黄金救援期”

中国新闻周刊
2026-05-23 18:42:46
2026-05-24 03:20:49
爱集微 incentive-icons
爱集微
集微网官方账号
109566文章数 98357关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

媒体:针对两岸关系 郑丽文最新表态说了句很直白的话

头条要闻

媒体:针对两岸关系 郑丽文最新表态说了句很直白的话

体育要闻

少年意气,正在改变中国足球

娱乐要闻

《浪姐7》三公,王濛赢麻了,张月实惨

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

时尚
教育
房产
游戏
艺术

夏天衣服不用买太多,每个人都可以准备一条白裙子,大方百搭

教育要闻

当下英国留学生的困境!

房产要闻

疯抢511轮!今年海南最魔幻的地块,被福建能源企业抢了!

硬刚PS6和新Xbox:数毛社笃定NS2力战至2030年!

艺术要闻

5.5亿!上海第二工业大学的新地标,路过都得多看两眼!

无障碍浏览 进入关怀版