网易首页 > 网易号 > 正文 申请入驻

ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字

0
分享至



过去两年,自动驾驶和大模型的结合越来越热。一个很自然的方向是:既然视觉语言模型已经具备很强的场景理解和推理能力,那能不能让它像人类司机一样,先理解环境、再做判断、最后输出轨迹?

这条路线听起来很合理,但真正落到自动驾驶上,很快就会遇到一个问题:很多方法虽然引入了大模型,却仍然把「推理」做成了文本链式推理。也就是说,模型要先生成中间解释,再把这些解释一步步转成动作或轨迹。这样做的优点是看起来 「更会思考」,但代价也非常明显:文本是离散 token,而轨迹是连续控制;文本推理还依赖自回归解码,速度慢、链路长,不太适合实时驾驶。

来自清华大学与香港中文大学 MMLab 的研究团队提出了全新的隐空间推理与层次化轨迹规划的 VLA 框架 --ColaVLA,论文已经被 CVPR2026 主会接收。



  • 论文标题:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
  • 论文链接: https://arxiv.org/abs/2512.22939
  • 代码链接: https://github.com/pqh22/ColaVLA

这篇论文给出的答案很直接:自动驾驶中的推理,不一定要写成文字。

与其让模型「边说边想」,不如让它在统一潜空间里完成推理,再把结果直接交给动作规划器。这样既能保留 VLM 的语义先验和知识能力,又能绕开显式文本生成带来的延迟和表示错位。

整篇论文最重要的贡献,其实可以概括成两句话:第一,把推理从文本空间搬到潜空间;第二,把轨迹生成从串行过程改成分层并行过程。



一、核心思路:先「想清楚」,再「开出来」

ColaVLA 的整体框架由两个核心部分组成:

  • Cognitive Latent Reasoner:负责完成高层驾驶认知
  • Hierarchical Parallel Planner:负责把高层策略展开成连续轨迹

作者的目标不是简单把一个大模型接到规划器前面,而是重新定义「推理」和「动作」之间的接口,让二者真正对齐。

先看前半部分,也就是潜空间推理器。作者把它设计成一个很像人类司机的四步过程:

  • Understand
  • Recognize
  • Rethink
  • Decide

这四步看上去很直观,但真正巧妙的地方在于,它们都不是通过自然语言完成的,而是在统一潜空间中隐式完成。

第一步 Understand,是先整体看懂场景。模型会把多视角视觉信息、固定驾驶提示和 ego 车状态一起送入共享 VLM,先建立一个全局场景理解,而不是一上来就直接回归轨迹。

第二步 Recognize,是从大量视觉信息里筛出真正和当前驾驶动作相关的关键实体。这里论文设计了一个 ego-adaptive router,根据当前自车状态动态选择最重要的视觉 token,保留的通常是车道、邻近车辆、行人、交通灯这些安全关键线索,而不是无差别地处理整张图。

第三步 Rethink,则是在压缩后的关键信息上再做一次 “复核式推理”,并借助一组可学习的 meta-query 来表示不同高层驾驶策略。

最后一步 Decide,输出的也不是一句解释文本,而是一组面向动作生成的高层驾驶先验。这样一来,模型就不再需要把推理结果先翻译成自然语言,再从语言翻译回动作空间,而是直接完成从认知到策略的内部闭合。



二、真正落到动作层面,它的规划器为什么更合理?

很多自动驾驶方法的问题,不只是上游推理方式不合适,下游轨迹生成方式也未必真正符合驾驶动作的结构。有些方法一次性直接回归整条轨迹,虽然简单,但缺少层次;有些方法依赖复杂生成过程,虽然表达能力强,但效率和部署稳定性不一定理想。

ColaVLA 这里的思路很清晰:驾驶轨迹本来就是分层的,所以生成过程也应该分层。

论文提出的Hierarchical Parallel Planner有三个关键词:

  • 先粗后细
  • 保持因果
  • 并行解码

它不是把未来轨迹当作一个扁平输出,而是先确定粗粒度意图,再逐步补足中间细节。这更像真实驾驶员的决策方式:先想清楚「往哪去」,再决定「具体怎么走」。

同时,作者还设计了一个 causality-preserving 的注意力机制,保证不同尺度之间的信息流是从粗到细、逐层细化的,而不是相互泄漏。这样一来,多尺度结构就不只是形式上的分解,而是真正具有因果约束的轨迹生成过程。

更重要的是,这个 planner 可以在单次前向传播中并行完成多尺度、多模式轨迹解码,不用再像文本 CoT 那样一步一步串行生成。



三、实验结果说明了什么?

从结果上看,ColaVLA 最打动人的地方,不只是「指标更高」,而是它同时兼顾了精度、安全和效率。

1. Open-loop:不只是预测更准,而且更安全

在 nuScenes 的开环评测中,ColaVLA 在动作类方法里取得了最优综合表现,平均 L2 误差为0.30 m,平均碰撞率为0.23%。相比强基线 SOLVE-E2E,L2 进一步下降,碰撞率也明显降低。

这说明它输出的轨迹并不只是数值上更接近真值,而是在安全性层面也更优。



2. Closed-loop:真正体现方法价值的部分

在更关键的闭环评测 NeuroNCAP 中,ColaVLA 的平均得分达到3.48,平均碰撞率降到36.8%,明显优于多种前序方法。

论文特别指出,相比依赖文本推理、并使用额外数据的 ImpromptuVLA,ColaVLA 在不显式生成文本思维链的情况下,依然取得了更好的闭环表现。

这个结果很有说服力,因为它说明:对自动驾驶来说,更长、更复杂的文字推理链,并不一定能带来更好的真实驾驶行为;真正关键的,还是内部决策表征是否适合动作生成,以及规划器是否具有合理的因果结构。



3. 推理效率:它把「落地可能性」往前推了一步

效率上,ColaVLA 也给出了非常亮眼的结果。在扎实的工程优化后,它的在 H200 上的端到端推理延迟为228 ms/frame,而对比的文本式方法整体快了5 倍到 10 倍左右。

这意味着,把推理从文本搬到潜空间,并不只是概念上更优雅,而是真的换来了实打实的速度收益。对于强调闭环和实时性的自动驾驶来说,这一点尤其关键。

四、消融实验最值得记住的几点

这篇论文的消融实验也比较完整,但最值得记住的其实只有四点。

第一,潜空间推理本身确实有效。只要加入 latent reasoning,模型的轨迹误差就会下降;再加入 rethink 阶段,效果还会进一步提升。这说明「先抓关键、再做复核」的认知链条不是叙事包装,而是真正有助于决策质量。

第二,分层并行规划器本身也很重要。即便把 reasoning 模块去掉,作者的 planner 在闭环上依然明显优于普通 MLP 头和 diffusion 头,说明它确实更符合真实驾驶动作的生成逻辑。

第三,关键 token 不是越多越好,而是平衡最好最重要。保留太少会丢信息,保留太多又会引入冗余,论文最终选择了一个在表达能力和效率之间更均衡的配置。

第四,最优的轨迹生成方式不是一次性回归整条轨迹,而是先确定关键点,再逐层补齐中间细节,这和驾驶动作本身的因果结构是对得上的。

五、这篇论文真正有价值的地方是什么?

如果只把 ColaVLA 看成「又一个自动驾驶模型」,其实低估了它。

我觉得这篇工作的更大意义在于,它提出了一个非常明确的判断:

自动驾驶中的推理,不一定需要显式写成文字。

过去很多工作默认认为,大模型的优势来自「会解释」「会说话」「能输出思维链」。但 ColaVLA 给出的答案是:在自动驾驶这种连续控制任务里,更重要的也许不是「让模型把思考说出来」,而是「让模型在内部真正想清楚,并用更适合动作生成的方式表达出来」。

从这个角度看,它代表的是一种很值得重视的范式变化:

  • 从text reasoning转向latent reasoning
  • 从sequential decoding转向parallel decoding
  • 从「展示推理过程」转向「兼顾安全、效率和闭环表现」

论文最后的结论也很清楚:把推理从文本迁移到潜空间,为自动驾驶中的知识驱动决策提供了一条更可扩展、也更现实的路径。

六、总结

如果要用一句话总结 ColaVLA,我会这样说:

它不是让自动驾驶大模型「更会说」,而是让它「更会在内部想清楚,再更快地开出来」。

这篇论文最核心的贡献,不只是提出了一个新模块,也不只是刷新了几项指标,而是它证明了下面几件事:

  1. 自动驾驶里的推理,可以不依赖显式文本思维链;
  2. 潜空间推理同样可以保留高层驾驶决策能力;
  3. 分层并行、因果一致的规划器,更适合真实驾驶动作生成;
  4. 当推理形式和动作生成真正对齐时,系统才能同时获得更好的安全性、效率和闭环表现。

对于后续自动驾驶大模型的发展来说,这篇工作很可能代表着一个很值得继续深入的方向:

不是把大模型硬塞进自动驾驶,而是重新设计一种真正适合自动驾驶的大模型推理方式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗首都响起密集爆炸声

伊朗首都响起密集爆炸声

北青网-北京青年报
2026-04-07 16:18:04
特朗普同意停火两周

特朗普同意停火两周

财联社
2026-04-08 06:38:07
“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

新京报
2026-04-07 12:09:08
陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

一娱三分地
2026-04-07 18:37:11
时速超300!郑丽文体验大陆高铁速度

时速超300!郑丽文体验大陆高铁速度

叮当当科技
2026-04-07 18:47:11
郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

闫树军论评
2026-04-07 16:29:13
夏航季东航将采用国产大飞机C919执飞上海航线

夏航季东航将采用国产大飞机C919执飞上海航线

黑龙江新闻网
2026-04-06 22:32:19
“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

妍妍教育日记
2026-04-06 09:15:12
伊朗民众组成人链保护发电厂和桥梁

伊朗民众组成人链保护发电厂和桥梁

界面新闻
2026-04-07 22:42:24
1-0,1-2!欧冠疯狂夜,拜仁掀翻皇马,13亿豪门崩盘,阿森纳险胜

1-0,1-2!欧冠疯狂夜,拜仁掀翻皇马,13亿豪门崩盘,阿森纳险胜

越岭寻踪
2026-04-08 06:20:06
“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

红星资本局
2026-04-07 20:40:07
44岁苍井空老师复出后变这样了?现场红色吊带裙实拍,网友热评:她老公精神力太强大

44岁苍井空老师复出后变这样了?现场红色吊带裙实拍,网友热评:她老公精神力太强大

乔话
2026-04-07 21:11:37
监控系统出现漏洞,300多人 被带走?海康威视回应

监控系统出现漏洞,300多人 被带走?海康威视回应

每日经济新闻
2026-04-07 15:06:19
山东旋转门后续:逼员工鞠躬的家长懵了,监控+通报双双打脸!

山东旋转门后续:逼员工鞠躬的家长懵了,监控+通报双双打脸!

奇思妙想草叶君
2026-04-07 21:39:15
机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

普陀动物世界
2026-04-08 03:02:21
游客称7人点3盆米饭被收78元,华阴市监局介入,饭店:小份米饭3元,大盆米饭约8小碗,用五常大米和矿泉水蒸煮

游客称7人点3盆米饭被收78元,华阴市监局介入,饭店:小份米饭3元,大盆米饭约8小碗,用五常大米和矿泉水蒸煮

潇湘晨报
2026-04-07 17:12:51
在迪拜工作的华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

在迪拜工作的华人感慨:别信媒体吹牛,迪拜就相当于我国二线城市

共工之锚
2026-04-08 00:17:30
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
播出4集,收视全国第一!于和伟一出手,就给央视带来抗战剧王炸

播出4集,收视全国第一!于和伟一出手,就给央视带来抗战剧王炸

小丸子的娱乐圈
2026-04-07 21:45:55
85岁富商陈丽华去世,和老公互称董事长迟先生,百亿遗产早有安排

85岁富商陈丽华去世,和老公互称董事长迟先生,百亿遗产早有安排

新金牌娱乐观察家
2026-04-07 11:30:32
2026-04-08 08:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12701文章数 142617关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

伊朗接受停火提议

头条要闻

伊朗接受停火提议

体育要闻

楚阿梅尼:第二个丢球对我们打击很大;次回合会有人站出来

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

旅游
本地
家居
亲子
公开课

旅游要闻

国内出游总花费613.67亿元!加长版清明假期带火文旅

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

雅致惬意 感知生活之美

亲子要闻

6岁女孩确诊性早熟!医生:小心这些“营养品”和“餐具”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版