英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子|ar|轨迹|模态

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

2025-12-02 14:07:01　来源: 机器之心Pro

河北举报

分享至

一、自动驾驶的瓶颈：「看」得见，却「想」不明白

当今自动驾驶模型越来越强大，摄像头、雷达、Transformer 网络一齐上阵，似乎什么都「看得见」。但真正的挑战在于：模型能否像人一样「想明白」为什么要这么开？

传统的端到端（E2E）系统虽然能从感知到控制一气呵成，却常在「长尾场景」翻车 —— 比如：

迎面来车违规左转；
行人突然闯入；
临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1：给模型装上「推理链条」

NVIDIA Research 推出的Alpamayo-R1（AR1），是一种全新的带有推理能力的视觉 - 语言 - 行动模型（Reasoning VLA），让车辆不只是「执行指令」，而是能在决策前「推理出因果关系」。

图 1：Alpamayo-R1 模型架构（示意）

AR1 的核心创新有三个方面：

1. Chain of Causation（因果链）数据集

AR1 引入了一套全新的数据标注体系：每一段驾驶数据不仅有「做了什么」，还有「为什么这样做」。例如：「减速并左变道，是因为前方有助动车等红灯，且左侧车道空闲。」

图 2：因果链（CoC）标注示例

2. Diffusion-based Trajectory Decoder（扩散式轨迹解码器）

AR1 引入了一种基于扩散模型的轨迹解码器，它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束，实现从推理到控制的无缝衔接。

3. Multi-Stage Training（多阶段训练策略）

AR1 是基于 NVIDIA 的 Cosmos Reason 模型，这是一种专为物理 AI（Physical AI）设计的推理视觉语言模型；并采用多阶段训练策略：首先在大规模驾驶数据上做模态注入，学习从视觉到动作的基本映射；第二阶段在 CoC 因果链数据上做监督微调，显式教会模型「先想清楚再开」；最后通过强化学习（RL）进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程，使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃：更稳、更准、更懂你

在实验中，AR1 为以下性能带来了显著提升：

规划精度提升 12%
越界率降低 35%
近碰率降低 25%
推理 - 行动一致性提升 37%
⚡ 实时性能：99 ms 端到端延迟

更重要的是，这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说，它更接近「真正会判断的司机」。

四、Vision Encoding：高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成，同时可以选配高层语言输入（如导航指令或驾驶目标）。所有输入（包括历史自车运动）会被统一编码成多模态 token 序列，按时序和传感器顺序排列，再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中：

每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模；
多相机特征随后融合为 BEV（鸟瞰图）表征；
所有模态（图像、导航文本、自车状态）被 token 化后统一输入 Transformer；
模型的输出包含三类 token：推理链（reasoning traces）、中层动作（meta-actions）与未来轨迹预测（trajectories）。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂：结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制：

人工部分：标注关键帧、核心因果因素（如红灯、行人、障碍物），并撰写推理链。
自动部分：通过 GPT-5 等大模型自动生成初版推理，再由人类审查。
质量审核：每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本，使 VLA 模型能真正「理解因果，而非记忆现象」。

图 3：CoC 数据标注流程示意图

六、Multi-Stage Training：从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段，旨在让模型从「看懂」到「会想」再到「能开」。

图 4: AR1 训练流程示意图

1. 监督微调（Supervised Fine-Tuning, SFT）

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练（post-training），其中包括 2.47 万条专为驾驶设计的视频样本，带有场景描述、驾驶难度和推理轨迹标注，帮助模型建立「物理常识」和「因果直觉」。

此外还构建了额外的 10 万条驾驶样本，标注关键目标、交通信号、因果行为解释等信息，用于领域自适应微调。

2. 因果链监督阶段（CoC Supervision）

引入 CoC 因果链数据集，显式监督模型的推理输出，使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型（如 GPT-5）生成高质量推理样本，使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化（Reinforcement Learning based Post-Training）。

在最终阶段，英伟达通过强化学习对模型进行策略微调，以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制：包括由专家级推理模型提供的反馈信号，用于评估并引导模型生成更具因果逻辑的推理；「推理–行动一致性（Reasoning–Action Consistency）」奖励，用于鼓励模型依据自身推理合理执行动作；以及底层安全奖励，用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望：迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI，而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结：让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升，更在于：它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时，才能确保更加安全，信任与普及才会得以实现。

一句话总结：AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型。

详细内容请查看：https://research.nvidia.com/publication/2025-10_alpamayo-r1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.