训练和验证辅助驾驶和自动驾驶的AI需要涵盖多种复杂且关乎安全的场景。然而,仅依赖真实世界的数据收集存在成本高昂和时间受限的问题。诸如突然加塞、不可预测的行人行为或极端天气等罕见但关键的情况难以大量捕捉。GAIA-2 解决了这一难题—专为全球自动驾驶打造的最先进视频生成世界模型。
相比于GAIA-1而言GAIA-2 进一步拓展了合成数据生成的能力,提升了可控性、扩大了地理适用范围,并涵盖了更多种类的车辆。与通用生成模型不同,GAIA-2 专为自动驾驶的复杂性而设计—能够处理多摄像头视角、多样化的道路状况以及关键的极端案例。其条件控制参数涵盖关键驾驶因素,包括自车行为变量(如速度、转向曲率)、环境因素(天气、时间)以及道路配置(如车道数量、限速、行人横道、交叉路口等)。(链接在文章底部)
01 技术原理
GAIA-2核心由两个关键组件构成:视频标记器(video tokenizer)和潜变量扩散世界模型(latent diffusion world model),二者协同工作,生成高保真的仿真场景。
视频标记器负责将原始像素级视频压缩到一个紧凑且具有语义意义的潜在空间,以高效表示驾驶动态,同时保留关键细节。潜变量扩散世界模型则根据历史观测、自车行为(如速度、转向曲率)、动态智能体行为(基于 3D 边界框)、环境因素(如天气、时间)、道路属性(如车道数量、限速、公交与自行车道、人行横道、交叉路口、交通信号灯等)来预测未来的潜在状态。
此外,GAIA-2 还支持从外部模型进行潜变量条件控制(latent conditioning),包括 CLIP 嵌入(embeddings)以及专门针对驾驶优化的专有模型,这使其在各种合成数据应用场景下具备更强的适应性。该架构支持 GAIA-2 以多种模式进行生成:可以预测未来帧、合成全新场景,或修改已有视频序列。通过结构化条件控制,GAIA-2 确保了跨多个摄像机视角的时空一致性,使其成为生成多样化、可扩展、真实感强且包含极端场景的自动驾驶仿真数据的强大工具。
GAIA-2可以在多个国家、不同的时间、天气条件和道路类型下合成驾驶场景。例如,它可以重现英国的左侧行驶、美国的独特交通标志以及德国的欧洲车道标记。除了地理变异性,GAIA-2还可以轻松调节一天中的时间和天气条件,使场景能够无缝过渡,例如从黎明、中午到夜晚,或从晴天、雨天到雾霾天气。它还支持在城市、郊区和高速公路环境之间的平滑适配。
02 演示效果
GAIA-2 引入了一项强大的能力:基于目标动作合成完整的驾驶场景。通过指定某一驾驶动作(如刹车、让行或掉头),GAIA-2 能够生成多样化且符合情境的视频序列,使该动作在生成的场景中既必要又合理。
安全关键事件(如险些碰撞、突然加塞、紧急刹车)是现实数据中最具挑战性但又至关重要的场景。由于这些事件在真实驾驶日志中极为罕见,系统难以系统性地训练和验证其在高风险决策中的表现。
GAIA-2 通过精确可控的高风险场景生成来解决这一难题,使每个智能体的位置、运动轨迹及交互方式都可以被明确设定。它能够主动模拟碰撞前情境、紧急避险操作(如急刹车),甚至超出常规分布的行为(如漂移或突然出现的障碍物)。
https://arxiv.org/pdf/2503.20523
https://wayve.ai/thinking/gaia-2/
欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.