网易首页 > 网易号 > 正文 申请入驻

英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子

0
分享至



一、自动驾驶的瓶颈:「看」得见,却「想」不明白

当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「看得见」。但真正的挑战在于:模型能否像人一样「想明白」为什么要这么开?

传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「长尾场景」翻车 —— 比如:

  • 迎面来车违规左转;
  • 行人突然闯入;
  • 临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1:给模型装上「推理链条」

NVIDIA Research 推出的Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning VLA),让车辆不只是「执行指令」,而是能在决策前「推理出因果关系」。



图 1:Alpamayo-R1 模型架构(示意)

AR1 的核心创新有三个方面:

1. Chain of Causation(因果链)数据集

AR1 引入了一套全新的数据标注体系:每一段驾驶数据不仅有「做了什么」,还有 「为什么这样做」。例如:「减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲。」



图 2:因果链(CoC)标注示例

2. Diffusion-based Trajectory Decoder(扩散式轨迹解码器)

AR1 引入了一种基于扩散模型的轨迹解码器,它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接。

3. Multi-Stage Training(多阶段训练策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「先想清楚再开」;最后通过强化学习(RL)进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃:更稳、更准、更懂你

在实验中,AR1 为以下性能带来了显著提升:

  • 规划精度提升 12%
  • 越界率降低 35%
  • 近碰率降低 25%
  • 推理 - 行动一致性提升 37%
  • ⚡ 实时性能:99 ms 端到端延迟

更重要的是,这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说,它更接近「真正会判断的司机」。

四、Vision Encoding:高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。所有输入(包括历史自车运动)会被统一编码成多模态 token 序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中:

  • 每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模;
  • 多相机特征随后融合为 BEV(鸟瞰图)表征;
  • 所有模态(图像、导航文本、自车状态)被 token 化后统一输入 Transformer;
  • 模型的输出包含三类 token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂:结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制:

  • 人工部分:标注关键帧、核心因果因素(如红灯、行人、障碍物),并撰写推理链。
  • 自动部分:通过 GPT-5 等大模型自动生成初版推理,再由人类审查。
  • 质量审核:每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本,使 VLA 模型能真正「理解因果,而非记忆现象」。



图 3:CoC 数据标注流程示意图

六、Multi-Stage Training:从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段,旨在让模型从「看懂」到「会想」再到「能开」。



图 4: AR1 训练流程示意图

1. 监督微调(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练(post-training),其中包括 2.47 万条专为驾驶设计的视频样本,带有场景描述、驾驶难度和推理轨迹标注,帮助模型建立「物理常识」和 「因果直觉」。

此外还构建了额外的 10 万条驾驶样本,标注关键目标、交通信号、因果行为解释等信息,用于领域自适应微调。

2. 因果链监督阶段(CoC Supervision)

引入 CoC 因果链数据集,显式监督模型的推理输出,使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型(如 GPT-5)生成高质量推理样本,使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化(Reinforcement Learning based Post-Training)。

在最终阶段,英伟达通过强化学习对模型进行策略微调,以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制:包括由专家级推理模型提供的反馈信号,用于评估并引导模型生成更具因果逻辑的推理;「推理–行动一致性(Reasoning–Action Consistency)」奖励,用于鼓励模型依据自身推理合理执行动作;以及底层安全奖励,用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望:迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI,而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结:让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升,更在于:它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现。

一句话总结:AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型。

详细内容请查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贺娇龙离世仅3天,知情人曝其丈夫如今状态,字字戳大众心窝

贺娇龙离世仅3天,知情人曝其丈夫如今状态,字字戳大众心窝

仁慈的视角
2026-01-17 10:04:58
热身赛:成都蓉城1-3巴库石油工人,徐虹破门

热身赛:成都蓉城1-3巴库石油工人,徐虹破门

懂球帝
2026-01-17 10:54:32
别羡慕“秒睡”的人!医生提醒:“倒头就睡”可能是身体在报警

别羡慕“秒睡”的人!医生提醒:“倒头就睡”可能是身体在报警

人民日报健康客户端
2026-01-03 15:33:43
苏林主导!越共十四大下周开幕,最高权力结构将被重塑?

苏林主导!越共十四大下周开幕,最高权力结构将被重塑?

40度观察
2026-01-16 16:32:00
限期15天!泰国副总理下令全面审查泰中高铁施工安全

限期15天!泰国副总理下令全面审查泰中高铁施工安全

聚焦真实瞬间
2026-01-17 08:01:35
笑死!老公好像谈恋爱了,网友:婚后睁一只眼闭一只眼

笑死!老公好像谈恋爱了,网友:婚后睁一只眼闭一只眼

夜深爱杂谈
2026-01-16 19:32:04
袁世凯明明只当了83天皇帝,哪来75亿枚袁大头?还用了37年打造?

袁世凯明明只当了83天皇帝,哪来75亿枚袁大头?还用了37年打造?

大千世界观
2026-01-16 19:34:47
整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

整整180天,那个敢炮轰以色列,弹打美国航母的男人再没出现过。

安安说
2026-01-12 14:15:45
“最热闹的地方都不一定能赚到钱了”,茶饮离规模天花板还有多远?

“最热闹的地方都不一定能赚到钱了”,茶饮离规模天花板还有多远?

蓝鲸新闻
2026-01-16 17:59:00
免税结束,车市“凉凉”?

免税结束,车市“凉凉”?

汽车公社
2026-01-15 08:43:51
霍震霆小儿媳首度出席霍家活动,打扮朴实识大体,陪着霍启仁社交

霍震霆小儿媳首度出席霍家活动,打扮朴实识大体,陪着霍启仁社交

翰林涛涛
2026-01-17 11:14:53
俄乌战争,击碎了多少“神一样的存在”

俄乌战争,击碎了多少“神一样的存在”

望岳
2026-01-12 20:36:38
聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

好贤观史记
2026-01-16 11:32:24
朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

朱元璋出巡时,遇到当年的地主:当年到你家要饭,为何给我馊饭?

五元讲堂
2025-11-06 10:41:50
媒体:多国空军排队购买枭龙战机

媒体:多国空军排队购买枭龙战机

财联社
2026-01-14 17:33:05
年前一个月,提醒大家:少囤米面油,多囤这3样,比米面油更重要

年前一个月,提醒大家:少囤米面油,多囤这3样,比米面油更重要

江江食研社
2026-01-16 10:30:10
廖汉生:妻舅是元帅,大舅哥是国家主席,晚年他拒绝当国家副主席

廖汉生:妻舅是元帅,大舅哥是国家主席,晚年他拒绝当国家副主席

墨说古今
2026-01-16 23:24:12
49年毛主席关键抉择:为汉字文脉按下“暂停键”避免一场文字浩劫

49年毛主席关键抉择:为汉字文脉按下“暂停键”避免一场文字浩劫

顾史
2025-12-19 19:30:46
前TVB男星前女友宣布切除子宫:谢谢自己果断勇敢

前TVB男星前女友宣布切除子宫:谢谢自己果断勇敢

TVB剧评社
2026-01-17 10:13:13
罗永浩“我能忍尽量忍”冲上热搜!西贝关店,恩怨背后是信任裂痕

罗永浩“我能忍尽量忍”冲上热搜!西贝关店,恩怨背后是信任裂痕

爱看剧的阿峰
2026-01-17 04:59:54
2026-01-17 12:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142543关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

牛弹琴:欧洲勃然大怒"大军"兵发格陵兰岛 特朗普感叹

头条要闻

牛弹琴:欧洲勃然大怒"大军"兵发格陵兰岛 特朗普感叹

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

贾国龙、罗永浩均被禁言,微博CEO回应

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

旅游
教育
亲子
艺术
公开课

旅游要闻

福州闽侯:湖畔的诗和远方

教育要闻

女老师连续旷工超十五天被解聘!事件背后的隐忧是什么

亲子要闻

没有他的哭声我是睡不着的!你们家的孩子也是这样吗

艺术要闻

12个字竟引发书法教育大讨论,你怎么看?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版