网易首页 > 网易号 > 正文 申请入驻

英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子

0
分享至



一、自动驾驶的瓶颈:「看」得见,却「想」不明白

当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「看得见」。但真正的挑战在于:模型能否像人一样「想明白」为什么要这么开?

传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「长尾场景」翻车 —— 比如:

  • 迎面来车违规左转;
  • 行人突然闯入;
  • 临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1:给模型装上「推理链条」

NVIDIA Research 推出的Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning VLA),让车辆不只是「执行指令」,而是能在决策前「推理出因果关系」。



图 1:Alpamayo-R1 模型架构(示意)

AR1 的核心创新有三个方面:

1. Chain of Causation(因果链)数据集

AR1 引入了一套全新的数据标注体系:每一段驾驶数据不仅有「做了什么」,还有 「为什么这样做」。例如:「减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲。」



图 2:因果链(CoC)标注示例

2. Diffusion-based Trajectory Decoder(扩散式轨迹解码器)

AR1 引入了一种基于扩散模型的轨迹解码器,它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接。

3. Multi-Stage Training(多阶段训练策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「先想清楚再开」;最后通过强化学习(RL)进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃:更稳、更准、更懂你

在实验中,AR1 为以下性能带来了显著提升:

  • 规划精度提升 12%
  • 越界率降低 35%
  • 近碰率降低 25%
  • 推理 - 行动一致性提升 37%
  • ⚡ 实时性能:99 ms 端到端延迟

更重要的是,这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说,它更接近「真正会判断的司机」。

四、Vision Encoding:高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。所有输入(包括历史自车运动)会被统一编码成多模态 token 序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中:

  • 每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模;
  • 多相机特征随后融合为 BEV(鸟瞰图)表征;
  • 所有模态(图像、导航文本、自车状态)被 token 化后统一输入 Transformer;
  • 模型的输出包含三类 token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂:结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制:

  • 人工部分:标注关键帧、核心因果因素(如红灯、行人、障碍物),并撰写推理链。
  • 自动部分:通过 GPT-5 等大模型自动生成初版推理,再由人类审查。
  • 质量审核:每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本,使 VLA 模型能真正「理解因果,而非记忆现象」。



图 3:CoC 数据标注流程示意图

六、Multi-Stage Training:从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段,旨在让模型从「看懂」到「会想」再到「能开」。



图 4: AR1 训练流程示意图

1. 监督微调(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练(post-training),其中包括 2.47 万条专为驾驶设计的视频样本,带有场景描述、驾驶难度和推理轨迹标注,帮助模型建立「物理常识」和 「因果直觉」。

此外还构建了额外的 10 万条驾驶样本,标注关键目标、交通信号、因果行为解释等信息,用于领域自适应微调。

2. 因果链监督阶段(CoC Supervision)

引入 CoC 因果链数据集,显式监督模型的推理输出,使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型(如 GPT-5)生成高质量推理样本,使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化(Reinforcement Learning based Post-Training)。

在最终阶段,英伟达通过强化学习对模型进行策略微调,以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制:包括由专家级推理模型提供的反馈信号,用于评估并引导模型生成更具因果逻辑的推理;「推理–行动一致性(Reasoning–Action Consistency)」奖励,用于鼓励模型依据自身推理合理执行动作;以及底层安全奖励,用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望:迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI,而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结:让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升,更在于:它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现。

一句话总结:AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型。

详细内容请查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

三农雷哥
2026-03-18 14:17:21
东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

懂球帝
2026-03-26 11:45:09
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

阿芒娱乐说
2026-03-26 13:16:54
32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

小南看车
2026-03-25 22:59:29
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
特朗普被曝希望“快速”结束对伊朗战争

特朗普被曝希望“快速”结束对伊朗战争

界面新闻
2026-03-26 12:37:58
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

王二哥老搞笑
2026-03-26 13:56:44
张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

纪中百大事
2026-03-26 09:44:20
石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

阅识
2026-03-26 11:25:47
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

小小科普员
2026-03-25 19:25:13
台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

照亮你的前行之路
2026-03-23 00:17:18
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
2026-03-26 15:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
健康
教育
军事航空

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

教育要闻

高考地理中的花海经济

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版