网易首页 > 网易号 > 正文 申请入驻

英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子

0
分享至

来源:市场资讯

(来源:机器之心)


一、自动驾驶的瓶颈:「看」得见,却「想」不明白

当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「看得见」。但真正的挑战在于:模型能否像人一样「想明白」为什么要这么开?

传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「长尾场景」翻车 —— 比如:

  • 迎面来车违规左转;

  • 行人突然闯入;

  • 临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1:给模型装上「推理链条」

NVIDIA Research 推出的 Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning VLA),让车辆不只是「执行指令」,而是能在决策前「推理出因果关系」。


图 1:Alpamayo-R1 模型架构(示意)

AR1 的核心创新有三个方面:

1. Chain of Causation(因果链)数据集

AR1 引入了一套全新的数据标注体系:每一段驾驶数据不仅有「做了什么」,还有 「为什么这样做」。例如:「减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲。」


图 2:因果链(CoC)标注示例

2. Diffusion-based Trajectory Decoder(扩散式轨迹解码器)

AR1 引入了一种基于扩散模型的轨迹解码器,它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接。

3. Multi-Stage Training(多阶段训练策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「先想清楚再开」;最后通过强化学习(RL)进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃:更稳、更准、更懂你

在实验中,AR1 为以下性能带来了显著提升:

  • 规划精度提升 12%

  • 越界率降低 35%

  • 近碰率降低 25%

  • 推理 - 行动一致性提升 37%

  • ⚡ 实时性能:99 ms 端到端延迟

更重要的是,这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说,它更接近「真正会判断的司机」。

四、Vision Encoding:高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。所有输入(包括历史自车运动)会被统一编码成多模态 token 序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中:

  • 每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模;

  • 多相机特征随后融合为 BEV(鸟瞰图)表征;

  • 所有模态(图像、导航文本、自车状态)被 token 化后统一输入 Transformer;

  • 模型的输出包含三类 token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂:结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制:

  • 人工部分:标注关键帧、核心因果因素(如红灯、行人、障碍物),并撰写推理链。

  • 自动部分:通过 GPT-5 等大模型自动生成初版推理,再由人类审查。

  • 质量审核:每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本,使 VLA 模型能真正「理解因果,而非记忆现象」。


图 3:CoC 数据标注流程示意图

六、Multi-Stage Training:从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段,旨在让模型从「看懂」到「会想」再到「能开」。


图 4: AR1 训练流程示意图

1. 监督微调(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练(post-training),其中包括 2.47 万条专为驾驶设计的视频样本,带有场景描述、驾驶难度和推理轨迹标注,帮助模型建立「物理常识」和 「因果直觉」。

此外还构建了额外的 10 万条驾驶样本,标注关键目标、交通信号、因果行为解释等信息,用于领域自适应微调。

2. 因果链监督阶段(CoC Supervision)

引入 CoC 因果链数据集,显式监督模型的推理输出,使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型(如 GPT-5)生成高质量推理样本,使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化(Reinforcement Learning based Post-Training)。

在最终阶段,英伟达通过强化学习对模型进行策略微调,以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制:包括由专家级推理模型提供的反馈信号,用于评估并引导模型生成更具因果逻辑的推理;「推理–行动一致性(Reasoning–Action Consistency)」奖励,用于鼓励模型依据自身推理合理执行动作;以及底层安全奖励,用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望:迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI,而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结:让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升,更在于:它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现。

一句话总结:AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型。

详细内容请查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外蒙宣布独立,杜尔伯特部坚持留在中国,如今这支部落境况如何?

外蒙宣布独立,杜尔伯特部坚持留在中国,如今这支部落境况如何?

老谢谈史
2026-03-10 12:51:38
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
黄友政被2大教练“训话”!孙颖莎累到直不起身,王曼昱提前返京

黄友政被2大教练“训话”!孙颖莎累到直不起身,王曼昱提前返京

体育就你秀
2026-03-12 09:13:20
报销被卡我没闹,下次出差坐绿皮火车,老板和客户都急了

报销被卡我没闹,下次出差坐绿皮火车,老板和客户都急了

奶茶麦子
2026-03-10 23:44:05
林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位

林肯号真中弹了:福特号开战一周还在打酱油,现在突然前出补位

军武次位面
2026-03-11 12:03:37
世预赛首轮:日本惨败,中国13分胜第三,对手29大胜巴西

世预赛首轮:日本惨败,中国13分胜第三,对手29大胜巴西

格斗联盟有话说
2026-03-12 02:02:47
特朗普:击沉了霍尔木兹海峡所有伊朗船只!FBI警告:伊朗可能袭击美国加州!

特朗普:击沉了霍尔木兹海峡所有伊朗船只!FBI警告:伊朗可能袭击美国加州!

证券时报e公司
2026-03-12 10:50:56
美军在英国动真格:B-1B拆导弹挂JDAM,这是要打一场狠仗

美军在英国动真格:B-1B拆导弹挂JDAM,这是要打一场狠仗

老马拉车莫少装
2026-03-12 07:35:28
笑死,中国人果然是地球Gai溜子!网友分享真实经历,不要太离谱

笑死,中国人果然是地球Gai溜子!网友分享真实经历,不要太离谱

小陆搞笑日常
2026-03-12 06:32:23
辛选集团广州新大楼奠基仪式,初瑞雪核心团队亮相!时大漂亮或将助力蛋蛋新起航?

辛选集团广州新大楼奠基仪式,初瑞雪核心团队亮相!时大漂亮或将助力蛋蛋新起航?

大中国
2026-03-11 11:26:02
老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

老年人的性生活多久一次合理?要戴套吗?答案颠覆认知

贱议你读史
2026-03-06 23:28:50
新信号!上海楼市有新盘宣布提价

新信号!上海楼市有新盘宣布提价

新浪财经
2026-03-11 23:19:06
中国弹药储备到底有多少?够再打一次世界大战吗?量大管饱尽管用

中国弹药储备到底有多少?够再打一次世界大战吗?量大管饱尽管用

Ck的蜜糖
2026-03-09 11:05:11
男子在瑞士公交车上自焚 造成至少6人死亡

男子在瑞士公交车上自焚 造成至少6人死亡

奋斗在意大利
2026-03-11 22:58:29
baby私下聚会视频!旗袍邋遢烟不离手请男模,举止浮夸疑精神失常

baby私下聚会视频!旗袍邋遢烟不离手请男模,举止浮夸疑精神失常

八卦王者
2026-03-09 11:05:16
吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

另子维爱读史
2026-02-27 20:31:34
13:2!安理会出现中俄不想看到的一幕,特朗普宣布:美军早赢了

13:2!安理会出现中俄不想看到的一幕,特朗普宣布:美军早赢了

虎哥闲聊
2026-03-12 09:13:00
川音“淫魔”校长:88名女音乐教师,霸占87人,细节曝光不堪入目

川音“淫魔”校长:88名女音乐教师,霸占87人,细节曝光不堪入目

就一点
2026-03-08 10:54:42
2026年清明将至,这5类人切记别上坟,老祖宗的忠告别当耳旁风

2026年清明将至,这5类人切记别上坟,老祖宗的忠告别当耳旁风

老特有话说
2026-03-08 15:30:41
马刺二当家!本赛季的福克斯,什么水平?

马刺二当家!本赛季的福克斯,什么水平?

篮球实录
2026-03-11 16:17:33
2026-03-12 11:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2446002文章数 5822关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

媒体:面对伊朗无人机乌"接单"救场 泽连斯基另有盘算

头条要闻

媒体:面对伊朗无人机乌"接单"救场 泽连斯基另有盘算

体育要闻

要脸,还是要83分纪录?

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

健康
房产
数码
亲子
家居

转头就晕的耳石症,能开车上班吗?

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

数码要闻

闪迪发布工业级存储卡IX QD352 microSD、IX LD352 SD

亲子要闻

儿啊,抓周这么多好东西你抓这个我是真没想到的~

家居要闻

触感本真 家的迹象

无障碍浏览 进入关怀版