网易首页 > 网易号 > 正文 申请入驻

自动驾驶的"ChatGPT时刻":NVIDIA让汽车学会了因果推理

0
分享至

这篇论文来自NVIDIA研究团队,全名《Alpamayo-R1:为长尾场景下的通用自动驾驶桥接推理与动作预测》,论文的核心是一个叫Alpamayo-R1(AR1)的视觉-语言-动作模型(VLA),它在2026年CES上由黄仁勋亲自发布,被称为"自动驾驶领域的首个思维模型",并已完整开源。

黄仁勋在CES 2026的主题演讲中宣称:"物理AI的ChatGPT时刻已经到来——机器开始理解、推理,并在现实世界中行动。"他在台上播放了一段视频:搭载Alpamayo的车辆独自穿越旧金山繁忙路口,全程不需要人类接管。论文随后揭示了这背后的技术逻辑,而它的核心洞察,几乎颠覆了过去五年端到端自动驾驶的主流思路。


端到端方案的真实瓶颈:不是算力,是"知其然不知其所以然"大多数人以为自动驾驶的主要挑战在算力和数据量,但这篇论文指向了另一个方向。

过去几年,特斯拉FSD、Waymo等公司的端到端(E2E)驾驶架构已经证明:把摄像头画面直接映射到方向盘转角,确实能在常规场景里表现良好。但系统一遇到"长尾场景"——也就是训练数据里极少出现的复杂情况——就会以一种难以预测的方式失效。

问题出在哪?论文给出了一个很直接的诊断:这些模型学到的是"看到X就做Y"的条件反射,而不是"因为Z所以要做Y"的因果链条。当遇到从未见过的情形时,模型没有可依赖的推理框架,只能乱猜。

更尴尬的是,即便模型做出了正确的动作,你也无从知道它"为什么"这么做。这对安全审计、监管合规都是致命缺陷。

NVIDIA的解法是:让模型在规划轨迹之前,先用自然语言把驾驶决策的因果链写出来。这不是在给模型"加注释",而是把推理本身变成控制信号的一部分。


推理不是装饰,而是功能组件

"大多数方法要么缺乏显式推理,要么推理方式自由散漫、缺乏结构。"这是论文对现有方案的核心批评。

论文区分了两类推理:一类是"叙事性"的——比如"天气晴朗,道路宽阔,请注意前方路况";另一类是AR1采用的"因果链式"推理——"前车在右侧路边停驻,有行人站在车尾,需向左轻微偏移以保持间距;对向车道有来车,需等待间隙后再执行偏移动作。"

这两类推理最大的区别,是后者会被直接转化为可验证的驾驶决策。论文专门构建了一套叫"因果链(Chain of Causation,CoC)"的标注框架,把每一条推理链都严格绑定到:

一个高层驾驶决策(如"前车跟随"、"中断变道"、"礼让行人"等,共15种纵向+横向决策)若干关键因果因素(关键车辆/行人的位置、行为、不确定性等级)一段简洁的因果推理文本整个框架的设计哲学是"决策锚定、因果局部性、标注经济性"——每条推理只说和当前决策直接相关的东西,不写废话。

现有数据集的三个致命缺陷

三年投入80,000小时驾驶数据,NVIDIA才发现原来问题出在"怎么标注",而不是"标多少"。

论文对现有推理数据集做了一次相当辛辣的批评,并用三种颜色的高亮直接展示了问题所在:


黄色:行为描述模糊。 常见写法是"自车应谨慎行驶并注意……",这种表述和实际轨迹几乎没有相关性。

蓝色:推理流于表面。 很多推理迹只是描述了场景背景,比如"天气晴朗"、"道路宽敞",这些因素对实际决策毫无贡献,却占据了推理空间。

红色:因果时序混乱。 这是最严重的问题——标注员在看完整段视频后再写推理,会无意识地把"未来才发生的事"当作决策原因。模型学会了这种"上帝视角",在真实部署时就会产生幻觉。

AR1的解法是:把标注过程强制拆成两阶段。第一阶段只看关键帧前2秒的历史,识别因果因素;第二阶段才引入未来6秒,确认实际决策。这道"时间防火墙"从机制上杜绝了因果混淆。

700K条推理数据,是怎么造出来的

光有标注框架还不够。NVIDIA面临的问题是:这类高质量、有结构的推理数据,人工标注根本做不到规模化。


论文的解法是"混合流水线":

人工标注负责质量和校准。标注员按两阶段流程操作,配备专门的标注工具(含自车速度/加速度/转向曲线、BEV可视化、障碍物框体),10%-20%的样本会经过额外审计。质量检查清单有四条硬规则:因果覆盖、因果正确性、近因优先、决策最简(如果没有决策变化,就标"无")。

自动标注负责规模。用GPT-5等顶级VLM,配合精心设计的提示词(含自车轨迹、动态状态、元动作序列),在2Hz采样视频上离线生成结构化推理标注。为防止VLM产生因果混淆,提示词明确指示它用2秒历史识别因果因素,用后续6秒和轨迹数据来确认决策。

最终产出:700K条有结构的CoC推理样本,覆盖25个国家2500+城市,涵盖高速、城区、各种天气时段。

论文做了一项评估:相比自由格式的推理标注,CoC结构化推理的"因果关系得分"提升了132.8%。而LLM自动评估与人工评估的一致率达到92%。

三阶段训练:从"会开车"到"会解释"到"言行一致"

拿到了数据,怎么训练?论文给出了一条三步走的路径,每步解决不同的问题。


第一阶段:注入动作模态。 基础VLM(Cosmos-Reason骨干)本来只能生成文本,这一步把轨迹预测能力注入进来。有趣的设计是"双轨表示":训练时用离散Token表示轨迹(128个特殊Token,对应64个路径点的加速度+曲率),推理时换成基于流匹配(Flow Matching)的连续表示。这样既保持了训练的统一性(推理和轨迹共用一个Token空间),又保证了推理速度(流匹配比自回归采样快得多)。

第二阶段:用CoC数据激活推理能力。 在CoC数据集上做监督微调(SFT),让模型学会在预测轨迹前先生成结构化的因果推理链。这一步已经带来了可观的轨迹预测提升,但SFT有天花板:模型可能记住了常见推理模式,遇到新场景就失效;更重要的是,SFT不能保证"说出来的和做出来的一致"。

第三阶段:用强化学习让言行一致。 这是整个训练体系里最独特的部分。论文设计了三种可验证奖励:

推理质量奖励:用DeepSeek-R1等大型推理模型作为评判官,按0-5分给生成的推理链打分推理-动作一致性奖励:把生成的推理文本解析成元动作,和实际预测轨迹对应的元动作做规则匹配,一致得1分,不一致得0分轨迹安全性奖励:惩罚碰撞、过大加加速度等不安全行为算法采用GRPO(Group Relative Policy Optimization),组内相对比较消除绝对奖励的偏差。

RL后训练的结果令人意外:如果只优化推理质量,推理分数确实上去了,但轨迹误差(ADE)反而变差了。 只有同时加入一致性奖励,才能让推理和动作相互促进。论文将此称为"过度自信的推理陷阱"——模型产生了流利但与实际执行脱节的解释。

数字说话:推理让长尾场景性能提升12%,RL让推理质量提升45%

论文的评估体系分四层:开环轨迹预测、闭环仿真(AlpaSim)、消融研究、实车测试。

核心数字如下:

推理的价值: 相比纯轨迹预测基线,在挑战性场景下,AR1的minADE6(6秒内6条轨迹中最优的平均位移误差)从0.994m降到0.868m,提升12%。普通场景的提升约4-5%。

闭环的价值: 在75个高难度场景的闭环仿真里,AR1将"接近碰撞率"从17%降到11%,降低35%。

RL后训练的价值: 推理质量评分从3.1提升到4.5(满分5),提升45%;推理-动作一致性从0.62提升到0.85,提升37%。

模型规模的价值: 从0.5B到7B参数,minADE6持续下降,7B比0.5B改善约11%。Alpamayo-R1-10B与0.5B相比,在920个公开测试场景中,接近碰撞率降低55%,AlpaSim综合得分提升超过2倍(0.35→0.72)。

实时推理: 在NVIDIA RTX 6000 Pro Blackwell上,端到端延迟99ms,刚好达到自动驾驶的实时要求(通常为100ms内)。推理生成约70ms,轨迹解码仅需8.75ms(5步流匹配)。

7. 视觉编码:一个被忽视的效率瓶颈

自动驾驶车辆通常配6-10个摄像头。用标准ViT为每张图生成Token,一帧下来就有几千个Token,根本无法实时。

AR1支持三种视觉编码策略,代表了不同的效率-性能权衡:

单图Token化(默认):每张448×280的图生成160个Token,适合摄像头少、历史帧短的场景。

三平面多摄像头Token化:将多个摄像头图像融合进一个3D三平面表示,Token数与摄像头数量解耦——7摄像头配置下,等效每图仅需约41个Token,压缩3.9倍,性能几乎无损。

Flex视频Token化:通过全注意力机制同时压缩多帧多摄像头,可实现20倍压缩(每图仅8个Token),同时保持或略优于基线的驾驶指标。这是处理长历史序列的首选方案。

这篇论文最有价值的贡献,不是一个新架构,而是一套"如何让推理真正有用"的完整方法论:结构化的因果标注框架、防止时序泄漏的数据流水线、用RL强制推理与行动一致的训练策略。

END本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。

Q&AQ1:为什么以前的端到端自动驾驶在长尾场景里容易失败?

根本原因是模型学到的是"模式匹配"而非"因果推理"。它知道遇到X应该做Y,但不知道为什么。一旦场景超出训练分布,没有因果框架可依赖,行为就变得不可预测。AR1的做法是把驾驶决策的因果链显式化,让模型先"想明白"再"动手",在长尾场景中获得12%的规划精度提升。

Q2:强化学习在这里具体解决了什么问题?光靠监督微调(SFT)不够吗?

SFT让模型学会了"生成推理",但不保证推理和行动一致。实验发现,只优化推理质量反而会让轨迹变差——模型会产生听起来合理但与实际执行脱节的解释。加入"推理-动作一致性"奖励后,两者才形成正向协同:推理质量提升45%,轨迹误差也同步改善9.4%。

Q3:AR1能在真车上实时运行吗?

可以。在NVIDIA RTX 6000 Pro Blackwell上,完整推理链路(视觉编码+VLM推理生成+轨迹解码)的端到端延迟为99ms,满足自动驾驶100ms实时性要求。其中推理生成约70ms,流匹配轨迹解码仅8.75ms。对比之下,自回归离散Token解码需要222ms,无法满足实时要求。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

清欢百味
2026-03-25 06:26:23
41岁猝逝张雪峰最后朋友圈曝光:月跑72公里,账上留足员工半年工资,捐了上千万却从不说累!

41岁猝逝张雪峰最后朋友圈曝光:月跑72公里,账上留足员工半年工资,捐了上千万却从不说累!

衔春信
2026-03-25 17:14:42
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
快讯!巴铁彻底折服了!

快讯!巴铁彻底折服了!

达文西看世界
2026-03-25 10:02:08
上市大卖被供应商坑惨,含泪补税4000万

上市大卖被供应商坑惨,含泪补税4000万

跨境派Pro
2026-03-25 14:16:21
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
4月1日正式执行!不用再买墓地,国家放开殡葬新选择

4月1日正式执行!不用再买墓地,国家放开殡葬新选择

另子维爱读史
2026-03-24 21:32:35
只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

另子维爱读史
2026-03-25 22:09:07
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

阿龙美食记
2026-03-25 06:17:12
信达证券所长被曝猥亵女员工,抚摸私密处,正脸照被扒,警方介入

信达证券所长被曝猥亵女员工,抚摸私密处,正脸照被扒,警方介入

180视角
2026-03-25 15:58:41
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
伊朗做出重大战略调整!霍尔木兹海峡通航!全球股市将迎纠错行情

伊朗做出重大战略调整!霍尔木兹海峡通航!全球股市将迎纠错行情

有范又有料
2026-03-25 18:19:02
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
送检4个LV包均为假!消费者:都是在专柜买的,LV专柜回应

送检4个LV包均为假!消费者:都是在专柜买的,LV专柜回应

福建第一帮帮团
2026-03-24 19:32:34
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
快讯!伊朗官方电视台宣布了!

快讯!伊朗官方电视台宣布了!

达文西看世界
2026-03-25 18:46:51
2026-03-26 02:51:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
2690文章数 168关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗:正在搜捕逃亡美军

头条要闻

伊朗:正在搜捕逃亡美军

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

教育
数码
家居
公开课
军事航空

教育要闻

那些躺平的孩子,其实是看透了父母的伪装

数码要闻

苹果macOS 26.4新增“慢速充电器”提示

家居要闻

轻奢堇天府 小资情调

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版