![]()
在最近的ICCV会议上,特斯拉自动驾驶负责人阿肖克揭秘了FSD的技术方法论。
在这场二十多分钟的演讲里,他讨论了哪些核心议题呢?
重剑无锋,大巧无工。从本质上看,争夺终局技术路线代表资格的VLA和世界行为模型都是端到端神经网络。
经过了2024年一整年嘴炮式的宣传,关于端到端的优点和缺陷,很多人鹦鹉学舌一般地谈冒了烟。
但是,大部分发言都抓不到重点,总结也不全面。
![]()
虽然不是端到端技术路线的始作俑者,始作俑者是英伟达,尽管不是行业首发部署了端到端神经网络方案,行业首发第一人是Wayve。
但是,特斯拉毕竟拿下了将端到端做到大规模量产的桂冠,作为其自动驾驶部门的掌舵者,阿肖克全面且精准地描述了端到端方案解决的挑战。
![]()
第一条,难以复制人类面对各种交通场景时的价值判断。
第二条,很难设计感知、预测和规划之间的接口,解决方式是“真一段式端到端”神经网络的信息全量传递,其本质原因是结构化的语言很难描述非结构化的世界这个核心难题。
第四条讲的是确定性的延时,无论面对什么样的场景,感知-预测-规划的频率都是确定的。
在采用规则编码的时代,因为有各种各样的if-then-else,几乎不可能保证统一的时间延迟,其后果便是驾驶的顿挫感强、舒适性差、安全性差。
值得一提的是,特斯拉将时延或频率做到了惊人的36赫兹,做个横向对比,某新势力VLA的频率只有10赫兹。
![]()
第三条和第五条讲的是端到端神经网络可以更有效地提升自动驾驶系统解决复杂长尾问题的能力。
根据“苦涩的教训”,与其投入大量精力设计基于人类先验知识的精巧算法,不如利用简单可扩展的模型架构,通过增加算力和数据量,让模型从海量数据中自行学习规律的效果更好。
显然只有转型端到端,才能够利用已经在大语言模型上面证明了的Scaling Law。
听君一席话,听了一席话。很多人复述了阿肖克讲述的端到端方案的难点,却也仅仅是复述了一遍。
![]()
第一个问题是维度灾难或者说维度诅咒,这个问题其实不是端到端自动驾驶的专属问题,而是所有AI神经网络都会遭遇的挑战。
因为神经网络训练的本质是提炼从输入到输出的因果关系,当输入维度极高、输出维度极低时,模型学习到的可能只是输入数据中与输出相关但非因果的肤浅统计规律,而非正确的因果关系。
缺乏对背后物理规律和逻辑因果深入理解的自动驾驶模型,在面对复杂场景时显然会遭遇到安全性差、泛化能力不足的问题。
![]()
针对这个问题,特斯拉的解决方式是双管齐下。
在数据源头上,利用其近千万辆的车队,从海量路采数据中筛选出能够有效挑战现有模型认知误差的关键高质量数据集,妥妥地向友商展示了什么叫“第一性原理”;
在模型准出上,基于世界模型构建闭环仿真评测系统,提供一个接近真实世界的演习环境,多维度评估驾驶策略。
![]()
第二个问题可解释性虽然是抛弃了具有内在可解释性的规则驱动系统带来的衍生问题,但同样不是端到端自动驾驶的独有问题。
由于深度神经网络通过多层次的非线性变换来学习数据中的复杂模式,最终的决策结果是几百万、几千万个神经元共同作用的结果,难以直接追溯其推理的逻辑,这种黑箱特性导致的可解释性差是所有复杂神经网络面临的共性问题。
![]()
针对这项挑战,特斯拉采用了行业通用的方案,即输出中间结果,除了屡屡被大家大拇哥称赞的3D占用,特斯拉FSD引入了语言智能,以自然语言的形式输出对场景的理解、对决策的思维链。
不管你愿意不愿意,终身学习、持续学习都将成为AI时代的主旋律。
美国认知教育心理学家布鲁纳认为:“学习的本质是主动形成认知结构的过程,而非被动接受信息”。
不只是人类的学习方式需要完成从“被动灌输”向“主动探索”的跃迁,司机智能体或自动驾驶也要完成从基于模仿学习的被动接受向基于强化学习的主动探索的转变。
![]()
古有孟母三迁,为的是给孟子提供一个良好的学习环境,现有自动驾驶玩家们大力发展世界模型,为的是给自动驾驶系统提供一个可自主进化的训练环境,以世界模型+强化学习推动系统能力的晋级。
![]()
正如各家的算法存在代际划分一样,用于不同端到端方案训练的世界模型也有着不一样的方案和不同的侧重点。
对于分段式端到端方案或VLA模型玩家而言,世界模型的主要作用是合成数据,进行场景数据增强,辅助两段式端到端方案的感知、VLA方案的VL场景理解训练。
![]()
对于特斯拉FSD这种「真一段式」端到端方案而言,其世界模型的侧重点除了基于3D高斯溅射的场景重建、在重建场景上的魔改和泛化。
更重要的地方在于它基于对物理规律的掌握和对物理空间的精细理解,生成了一个长时序、具备高度时空一致性的虚拟环境,并把驾驶决策引入闭环,让端到端神经网络在这个闭环里不断挑战自我,打破能力上限。
![]()
不过,强化学习并非包治一切的灵丹妙药,而且其学习效率也有一定的问题。
特斯拉世界模拟器的亮点在于将人类的专家司机引入了这个闭环,这一点确实足够惊艳。
距离特斯拉上一次公开FSD自动驾驶技术细节已经过去了两年多的时间,阿肖克这次演进说长不长,说短不短,个中的关键方法论值得所有自动驾驶行业的从业者好好琢磨一番。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.