最近在旧金山的Mission区,步行在街上时,看到Waymo已经成为城市交通的一部分。车辆和行人与自动驾驶的汽车相安无事。
路过一条叫Langton的小巷时,有一辆正驶出来的Waymo停下来,让我先过,我又回头观察它是如何汇入主路的。
主路上车很多,道路最右边的车道在施工。我看了一会儿,观察到这辆Waymo如何处理这有点复杂的情况:
Waymo能礼让行人,在等着汇入主路程的时候,有人骑单车,人人遛狗,都从其前后走过;
能观察到路上的施工标志,它本可以向右拐进最内价的道路程,但是几米之外有一处施工标志,它只能选择驶入第二条道,但红灯让道路堵塞;
它打着右转灯,耐心等了一会儿,出现空档时想汇入,但直行的司机不让,它只能前探一下又停下来;
终于出现了一个较大的空档,它果断地右转,而直行的司机也让了它。
看来Waymo已经基本适应城市正常的交通环境。目前Waymo在美国的各城市里,提供超过40万次服务。预计2026年,Waymo、特斯拉、Uber等将进一步把Robotaxi(自动驾驶出租车)推向主流城市交通。
Waymo自动驾驶的核心,是一个AI世界模型系统,它包括了一个认知/决策模型,即基于Gemini的Driver,和一个测试Driver状态和后果的世界模型,即DeepMind刚刚发布的Genie 3。
Waymo刚刚把Genie-3集成到它的自动计算单元中,宣布为Waymo世界模型(Waymo World Model)。
DeepMind是这样定义它的通用世界模型Genie的:可以理解并模拟世界,让智能体可以预测环境将如何改变,及其行为将会如何影响它。Genie能生成逼真和交互式的3D环境。
Genie 3 针对驾驶领域的严苛要求进行了优化。通过利用 Genie 庞大的世界知识库,它可以模拟极其罕见的事件——从龙卷风到与大象的偶遇——这些事件在现实中几乎不可能大规模捕捉。该模型的架构具有高度可控性,工程师能够通过简单的语言提示、驾驶输入和场景布局来修改模拟结果。值得一提的是,Waymo 世界模型能够生成高保真度的多传感器输出,其中包括摄像头和激光雷达数据。
Driver是一个在真实世界里拥有3亿多公里驾驶经验的司机,但是,Waymo认为,这些道路数据还不够,因为经验是有限的。驾驶所面对的物理世界的复杂性,包括了大量的意外,人类经验从未或者很少包括的情景。例如遭遇龙卷风或者大象。
“自动驾驶行业的大多数仿真模型都是基于收集到的道路数据从零开始训练的。这种方法意味着系统只能从有限的经验中学习。而 Genie 3 拥有强大的世界知识,这得益于其对海量且多样化的视频进行预训练,使我们能够探索车队从未直接观察到的场景。”
这一世界模型的后训练,可以将二维视频中获取的海量世界信息转化为 Waymo 硬件套件独有的三维激光雷达输出。虽然摄像头擅长捕捉视觉细节,但激光雷达传感器提供了宝贵的补充信号,如精确深度。Waymo 世界模型几乎可以生成任何场景——从日常驾驶到罕见的长尾场景——并支持多种传感器模式。
这样,通过Waymo就构建了一个由实际驾驶和模拟驾驶构成的闭环系统,也可以说它是一个数据飞轮。“司机”在实际驾驶中遇到的问题,可以进入到模拟环境中进行强化学习,并经过验证之后,再进入实际驾驶中。
![]()
相比之下,特斯拉的自动驾驶系统(FSD),全部来自数百万辆特斯拉汽车在实际驾驶中收集到的数据,尽管它的总行驶里程也达到了几十亿公里,但是,Waymo认为其基础模型是一个功能全面、技术先进的世界模型,“其创新架构相比纯粹的端到端或模块化方法具有显著优势。 ”
自动驾驶的探索,对于AGI有着重要的意义。且不说目前主要的AGI程度的衡量,都借鉴了自动驾驶L1-L5的分级方法,实际上,自动驾驶可能是世界模型最先成熟的领域,而这一路线对于AGI的架构也具有很强的预示性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.