![]()
世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才提出的。那世界模型是自动驾驶落地的正解吗?
![]()
什么是世界模型?
世界模型对于自动驾驶汽车来说,更像是给汽车大脑里绘制一张地图,可以将环境的现状和未来可能的演变都表示出来,让自动驾驶系统不只是“看见当下”,还能“想一想接下来可能发生什么”。
简单理解就是,世界模型不仅可以让自动驾驶汽车知道哪里有车道、红绿灯和障碍物,更可以预测这些障碍物的未来变化,这对于确保自动驾驶系统安全,是非常重要的。
![]()
图片源自:网络
世界模型能够将传感器(如摄像头、雷达、激光雷达和车载定位系统等)采集的原始观测数据,转化为一种低维、抽象的“隐状态”(latent state)作为内部表示。
模型学习该隐状态随时间演变的规律(即动力学),并基于此进行预测或规划。世界模型可以是显式的物理模型或概率模型,也可以是基于学习得到的神经网络模型;它不仅可以用于直接回放未来场景(仿真模拟),也可以仅生成下一时刻的概率分布以辅助决策。
![]()
世界模型在自动驾驶中的核心作用
对于自动驾驶系统来说,世界模型可以应用在预测、规划与验证等三个方面。预测是世界模型最直观的用途,传统感知可以把周围物体识别出来并定位,但这只是“静态”信息。
世界模型通过学习交通参与者的行为模式和场景的动力学,能够给出更长时域的、多步的预测。如可以在十几秒的时间尺度上,判断骑着自行车的如是否会靠近路口,或一辆并线的车是否会与本车发生交叉轨迹等。
这样的预测不是简单的匀速延伸,而是包含了对意图、交互和环境约束的理解。
![]()
图片源自:网络
规划需要评估不同动作的后果,选择既安全又舒适的轨迹,是规划的主要目的。世界模型可以依托内置的“模拟环境”,把候选轨迹在模型里“演练”几次,比较它们在未来几秒内的风险和收益。
比起只靠规则或短时预测,这种基于世界模型的规划更能处理如窄路会车、密集并线或不守规则的交通参与者等复杂的多主体交互场景。它还能帮助车辆做出更保守或更激进的策略选择,并把不确定性带进决策中。
训练和验证自动驾驶系统需要大量场景、尤其是罕见或危险场景。真实世界里采集这些场景不仅昂贵而且很危险。
世界模型可以生成高质量的合成场景或作为数字孪生的一部分,用来做大规模的虚拟测试。通过在模型中反复模拟,就可以发现自动驾驶系统在长尾场景下的弱点,避免把危险行为部署到实车。
![]()
世界模型如何被构建?
要让模型有“想象未来”的能力,一定要喂给它大量合适的数据。自动驾驶的世界模型可以依托摄像头提供丰富的视觉细节,激光雷达给出精确的三维几何信息,毫米波雷达对恶劣天气更鲁棒,车载定位和CAN总线送来车辆自身状态等数据进行学习。
把这些数据融合后,模型要学会抽取有用的表示,这一步叫表示学习。一个好的表示不仅可以保留对决策重要的细节(例如相对速度、可通过空间),还能压缩冗余信息,方便后续预测和规划使用。
![]()
图片源自:网络
表示之后是要进行动力学建模,也就是学习隐状态如何随时间变化。这里有两类主流做法。
一类是基于物理或图模型的显式方法,通过写出规则或物理方程来描述车辆与行人的运动,再把观测通过滤波器或贝叶斯推断与这些模型结合。显式方法好处是可解释、易于验证,但面对复杂的人类行为时往往力不从心。
另一类是端到端学习的方式,使用循环神经网络、变分自编码器或近期流行的时序Transformer来直接学习从过去观测到未来隐状态的映射。学习型方法在复杂交互上更有表现力,但需要大量训练数据和注意不确定性的表达。
但无论采用哪种架构,不确定性建模都非常关键。
世界不是确定的,行人会犹豫、司机会突然变道。把预测做成带概率的形式(例如把未来位置用概率分布表示,或生成若干可能的未来轨迹并给出置信度)能让决策器更稳健。把因果推理或意图推断融入世界模型,不仅可以预测位置,还能推断“为什么会这样”,这对处理前所未有的情况很重要。
![]()
实际应用中的几个典型场景
一直都说概念,那世界模型对于自动驾驶的具体应用场景有哪些?可以想象一下,若车辆右侧有一辆停着的货车,货车后面可能有行人准备穿行。
单纯靠感知可能看不到那名行人,但世界模型可以结合道路环境、过往行人出现的位置规律以及路边停放车辆的用途,给出“可能有人从后面出来”的预测,从而促使决策器放慢速度并给出预留空间。
在高速并道时,两辆车互相示意并线的行为充满着博弈意味。世界模型这时候就能观察双方的速度与加速度变化、转向幅度等,估计对方的意图并预测多个可能的并线结果,从而选择一种在时间和空间上更安全的并线策略,或者选择先放慢再并线。
在施工、临时交通指引或其他异常标志的情况下,规则驱动的系统容易出错。世界模型可以把临时的交通锥、施工车与交通参与者的行为模式联系起来,判断这是一个临时改道的道路,并在短时内学习到新的可行策略,而不是盲目遵循过往的规则。
![]()
图片源自:网络
![]()
最后的话
把世界模型放在自动驾驶的全局来理解,它的核心价值是把现时感知和未来决策连接起来。其不是简单的把感知结果当作事实,而是在内心(模型)里构建一个短期可运行的“虚拟世界”,并在这个虚拟世界里反复试错、评估风险、选择动作。这样做能显著提升系统对复杂交互场景、遮挡、长尾事件的处理能力,也能为离线的大规模验证提供重要工具。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.