网易首页 > 网易号 > 正文 申请入驻

英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子

0
分享至



一、自动驾驶的瓶颈:「看」得见,却「想」不明白

当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「看得见」。但真正的挑战在于:模型能否像人一样「想明白」为什么要这么开?

传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「长尾场景」翻车 —— 比如:

  • 迎面来车违规左转;
  • 行人突然闯入;
  • 临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1:给模型装上「推理链条」

NVIDIA Research 推出的Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning VLA),让车辆不只是「执行指令」,而是能在决策前「推理出因果关系」。



图 1:Alpamayo-R1 模型架构(示意)

AR1 的核心创新有三个方面:

1. Chain of Causation(因果链)数据集

AR1 引入了一套全新的数据标注体系:每一段驾驶数据不仅有「做了什么」,还有 「为什么这样做」。例如:「减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲。」



图 2:因果链(CoC)标注示例

2. Diffusion-based Trajectory Decoder(扩散式轨迹解码器)

AR1 引入了一种基于扩散模型的轨迹解码器,它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接。

3. Multi-Stage Training(多阶段训练策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「先想清楚再开」;最后通过强化学习(RL)进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃:更稳、更准、更懂你

在实验中,AR1 为以下性能带来了显著提升:

  • 规划精度提升 12%
  • 越界率降低 35%
  • 近碰率降低 25%
  • 推理 - 行动一致性提升 37%
  • ⚡ 实时性能:99 ms 端到端延迟

更重要的是,这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说,它更接近「真正会判断的司机」。

四、Vision Encoding:高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。所有输入(包括历史自车运动)会被统一编码成多模态 token 序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中:

  • 每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模;
  • 多相机特征随后融合为 BEV(鸟瞰图)表征;
  • 所有模态(图像、导航文本、自车状态)被 token 化后统一输入 Transformer;
  • 模型的输出包含三类 token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂:结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制:

  • 人工部分:标注关键帧、核心因果因素(如红灯、行人、障碍物),并撰写推理链。
  • 自动部分:通过 GPT-5 等大模型自动生成初版推理,再由人类审查。
  • 质量审核:每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本,使 VLA 模型能真正「理解因果,而非记忆现象」。



图 3:CoC 数据标注流程示意图

六、Multi-Stage Training:从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段,旨在让模型从「看懂」到「会想」再到「能开」。



图 4: AR1 训练流程示意图

1. 监督微调(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练(post-training),其中包括 2.47 万条专为驾驶设计的视频样本,带有场景描述、驾驶难度和推理轨迹标注,帮助模型建立「物理常识」和 「因果直觉」。

此外还构建了额外的 10 万条驾驶样本,标注关键目标、交通信号、因果行为解释等信息,用于领域自适应微调。

2. 因果链监督阶段(CoC Supervision)

引入 CoC 因果链数据集,显式监督模型的推理输出,使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型(如 GPT-5)生成高质量推理样本,使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化(Reinforcement Learning based Post-Training)。

在最终阶段,英伟达通过强化学习对模型进行策略微调,以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制:包括由专家级推理模型提供的反馈信号,用于评估并引导模型生成更具因果逻辑的推理;「推理–行动一致性(Reasoning–Action Consistency)」奖励,用于鼓励模型依据自身推理合理执行动作;以及底层安全奖励,用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望:迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI,而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结:让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升,更在于:它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现。

一句话总结:AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型。

详细内容请查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宏远早报!杜锋深夜发声,徐杰将前往美国特训,朱芳雨开始干活

宏远早报!杜锋深夜发声,徐杰将前往美国特训,朱芳雨开始干活

多特体育说
2026-05-13 07:44:33
高建舟,拟任正厅级新职!宜昌市委常委、组织部部长燕元沂,拟任新职!

高建舟,拟任正厅级新职!宜昌市委常委、组织部部长燕元沂,拟任新职!

靓仔情感
2026-05-13 12:11:10
越南前女首富张美兰资产将被拍卖:两个爱马仕包起拍价超百万,曾请求当纪念品留给后代;3辆豪车中只有宝马能正常行驶

越南前女首富张美兰资产将被拍卖:两个爱马仕包起拍价超百万,曾请求当纪念品留给后代;3辆豪车中只有宝马能正常行驶

大象新闻
2026-05-12 23:46:06
CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

CCTV5直播上海男篮VS北京队,5个位置球员对比,谁强谁弱一目了然

体育大学僧
2026-05-13 10:09:51
投资者称持有14万股 替儿子向上市公司求职 沧州明珠:可跟公司联系 看是否有合适的岗位

投资者称持有14万股 替儿子向上市公司求职 沧州明珠:可跟公司联系 看是否有合适的岗位

闪电新闻
2026-05-13 10:56:19
湖北一快捷酒店内消杀工作人员错开房门,事发时房内女子未着衣物,个人隐私遭到泄露,消杀企业:承认失误,愿按房费三十倍标准进行赔付

湖北一快捷酒店内消杀工作人员错开房门,事发时房内女子未着衣物,个人隐私遭到泄露,消杀企业:承认失误,愿按房费三十倍标准进行赔付

台州交通广播
2026-05-13 09:57:15
广东一工地吊臂折断,砸向刚建成的幼儿园

广东一工地吊臂折断,砸向刚建成的幼儿园

深圳晚报
2026-05-12 14:35:50
人生有两件最积阴德的事,你若能做一件,福报会越滚越大

人生有两件最积阴德的事,你若能做一件,福报会越滚越大

心理观察局
2026-05-13 08:46:06
4.5亿欧元!拉莫斯笑了,将收购塞维利亚,已达成协议只待官宣

4.5亿欧元!拉莫斯笑了,将收购塞维利亚,已达成协议只待官宣

奥拜尔
2026-05-12 19:37:17
惊艳!梁靖崑拟任北电副教授,专业技术七级岗

惊艳!梁靖崑拟任北电副教授,专业技术七级岗

史海流年号
2026-05-12 22:38:12
20架C17抵京,特朗普搬家式外交,本想炫耀实力,结果被运20打脸

20架C17抵京,特朗普搬家式外交,本想炫耀实力,结果被运20打脸

青烟小先生
2026-05-12 09:30:12
12岁男孩确诊癌症晚期!父母透露孩子常把饮料当开水喝 油炸、腌制零食吃起来毫无节制

12岁男孩确诊癌症晚期!父母透露孩子常把饮料当开水喝 油炸、腌制零食吃起来毫无节制

闪电新闻
2026-05-12 18:27:14
中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

混沌录
2026-05-12 22:16:11
空调闲置大半年再开机,千万别急着开制冷,这些错误会伤身体

空调闲置大半年再开机,千万别急着开制冷,这些错误会伤身体

开心美食白科
2026-05-11 13:19:11
刘雨鑫打卡潮汕天价海鲜!同款濑尿虾对标三亚,价格真相大白

刘雨鑫打卡潮汕天价海鲜!同款濑尿虾对标三亚,价格真相大白

行者聊官
2026-05-11 12:23:14
上海大学通报“院长苏某某论文被举报数据造假”:已成立调查组,启动调查程序 ,将根据调查情况严肃认真处理

上海大学通报“院长苏某某论文被举报数据造假”:已成立调查组,启动调查程序 ,将根据调查情况严肃认真处理

鲁中晨报
2026-05-12 16:54:06
事发上海!八旬老伯公交车上突然昏迷,抢救无效不幸离世,家属索赔11万余元

事发上海!八旬老伯公交车上突然昏迷,抢救无效不幸离世,家属索赔11万余元

新民晚报
2026-05-13 12:19:56
世乒赛奖金出炉:王楚钦孙颖莎最高,梁靖崑太意外,陈幸同很正常

世乒赛奖金出炉:王楚钦孙颖莎最高,梁靖崑太意外,陈幸同很正常

笑饮孤鸿非
2026-05-13 10:58:45
新闻8点见丨外交部谈特朗普访华;北京“六环半”要来了

新闻8点见丨外交部谈特朗普访华;北京“六环半”要来了

新京报
2026-05-12 07:58:45
国际足联主动妥协,五折甩卖世界杯版权,央视为何拒不买单

国际足联主动妥协,五折甩卖世界杯版权,央视为何拒不买单

璀璨幻行者
2026-05-10 22:09:58
2026-05-13 14:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12982文章数 142648关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

旅游
时尚
数码
家居
房产

旅游要闻

5·19中国旅游日,郑州文旅多重惠民福利来啦

没八卦、纯素人、不惊艳,可她赢麻了

数码要闻

联发科天玑开发者大会MDDC 2026:官宣天玑AI智能体化引擎2.0

家居要闻

极简主义下的居住场域与空间

房产要闻

海口禁摩,3.3万名车主要慌了!

无障碍浏览 进入关怀版