看得清还不够，汽车开始“理解”世界|视觉|新论文|真实世界

看得清还不够，汽车开始“理解”世界

2026-02-14 10:22:07　来源: 盖世汽车

上海举报

分享至

过去十年，智能驾驶的发展始终围绕“感知”展开。车内摄像头分辨率不断提高，激光雷达数量持续增加，算法对目标的识别精度被反复推高到接近极限。但现实已经反复验证：看得更清楚，并不能等同于驾驶更安全。

真正制约高阶辅助驾驶能力上限的，并非单点感知精度，而是系统是否具备对真实世界进行整体理解与推演的能力。

进入 2025 年，一个清晰的变化正在行业内部显现：视觉系统不再只是感知链路中的前端模块，而是开始承载更高层级的认知任务，逐步成为世界模型、端到端决策与推理能力连接现实世界的关键入口。这一变化，正在重塑智能驾驶的技术底座。

图片来源： notateslaap

拐点初现：视觉系统从“感知输入”走向“认知基础”

在传统自动驾驶架构中，视觉系统承担的角色相对清晰：采集图像、完成目标检测与语义分割，然后将结构化结果交给后续模块。整个系统强调模块解耦，感知、预测、规划各自独立优化。这种模式在 L2 阶段行之有效，却在更复杂的城市场景中逐渐显露出瓶颈。

问题并不在于“是否看得清”，而在于系统是否始终看得见。在雨雾、强逆光、夜间或复杂气候条件下，传统视觉、雷达和激光雷达各自存在失效区间，感知的不连续性，直接限制了系统对现实世界状态的稳定理解。

也正是在这一背景下，新的视觉感知形态开始进入智能驾驶体系。

Teradar在CES 2026上发布的太赫兹视觉传感器Summit，正是这一趋势的缩影。太赫兹波段位于雷达与激光雷达之间，兼具较高分辨率与全天候穿透能力，使车辆在雾、雨、雪和强眩光条件下仍能获取稳定的环境信息。

图片来源： Terada

从工程基础看，这种升级并非偶然。2024–2025年，多摄像头方案成为主流，8颗甚至更多摄像头进入量产车型；高带宽传输方案（如基于GMSL2的多摄像头系统）与更精确的时序同步能力，使跨视角、跨时间的特征融合成为现实。视觉数据不再是孤立帧图像，而是构成一个高频、全域、时间一致的连续信息流。

真正的变化发生在模型层面。

随着端到端架构成为行业共识，感知、预测、规划不再通过规则化接口串联，而是在统一网络中协同优化。在这种结构下，视觉不再只是“提供目标框”，而是直接参与环境状态的隐空间建模。模型从图像中学习到的不只是物体类别，而是空间几何关系、动态演化趋势以及行为先验。

换句话说，视觉正在承担三项新的“认知职责”：

第一，是构建连续空间表达。通过多视角融合与BEV建模，视觉输出的不再是离散检测结果，而是统一的三维场景表示，为后续预测提供稳定基础。

第二，是提供时间一致的状态演化信息。时序建模让系统能够理解“变化趋势”，而不仅是当前画面。视觉开始成为时间建模的核心信号源。

第三，是参与隐式行为理解。在大模型与世界模型框架下，视觉特征被映射到高维语义空间，成为推理与反事实预测的输入。这意味着视觉不仅回答“这里有什么”，还参与回答“接下来可能发生什么”。

至此，视觉系统完成了角色转变。

它不再是传感器层的输入模块，而成为认知体系的现实锚点——世界模型与端到端决策之所以能够成立，是因为视觉提供了稳定、连续、可泛化的环境表达。模型的“理解能力”并非凭空产生，而是建立在视觉连续性和信息密度之上。

这一拐点的真正含义在于：当视觉具备跨场景稳定性、跨时间连续性以及高维语义表达能力时，它不再只是看见世界，而是成为系统理解世界的起点。

从感知连续性到行为推演：世界模型如何补上“下一步”的空缺

当视觉系统完成从“感知输入”到“认知基础”的转变后，一个更核心的问题随之浮现：如果系统已经能够稳定、连续地理解环境状态，那么它是否具备推演环境演化的能力？

这正是世界模型登场的逻辑起点。

如果说端到端解决的是系统结构问题，那么世界模型要解决的，则是智能驾驶长期存在的“预测盲区”。

在真实道路中，许多风险并非来自目标识别错误，而是源于系统无法合理判断环境的演化趋势。例如，系统可以识别行人，却难以判断其是否即将横穿马路；可以识别前车，却难以预测其是否会突然变道。这类问题，本质上源于对世界状态缺乏连续、可推演的内部表达。

传统规则驱动或模块化的系统，本质上依赖人工设计的逻辑与先验假设。一旦场景超出预设边界，系统便难以应对。而世界模型的核心是通过对真实世界的高维建模，使系统具备理解、预测与内部模拟能力，从而在决策前“先在脑中跑一遍未来”。

从技术角度看，世界模型至少具备三层价值。

首先是时间连续性建模。真实世界并非离散帧的拼接，而是连续演化的系统。世界模型强调在时间维度上保持状态一致性，使车辆能够理解行为趋势，而不仅理解当前状态。

更进一步的是因果推理能力。世界模型不再简单回答“这是什么”，而是尝试回答“如果我这样做，会发生什么”。这种反事实推演能力，是复杂城市场景中实现类人决策的关键。

最终是可训练性与数据闭环。世界模型可以在云端仿真环境中训练，通过大规模合成数据弥补真实世界长尾场景不足，再将能力蒸馏至车端执行。这一点，直接影响高阶辅助驾驶的工程可行性。

正因如此，世界模型不再停留在学术概念层面，而是开始成为主机厂和头部智驾供应商的重点投入方向。

Nextbase在CES 2026上发布的InSight全球街景视觉平台，提供了一种不同于传统“单车采集”的路径。通过覆盖数十亿英里道路的行车记录仪网络，平台能够持续生成低延迟、匿名化、带有精确时空标注的真实世界影像。这些数据并非用于即时驾驶决策，而是用于构建更接近真实道路运行状态的世界模型，为系统理解“世界如何变化”提供长期、规模化的样本。

图片来源： Nextbase

这种从群体视角获取世界数据的方式，使世界模型不再局限于单一车辆的感知闭环，而开始具备更宏观的环境理解能力。对世界模型而言，这类高保真、强时间关联的数据，正是进行行为推演和因果学习的关键资源。

端到端、VLA与世界模型的融合演进

如果说世界模型解决的是“系统如何理解未来”，那么一个更现实的问题是——今天的量产体系，是建立在什么基础之上？

答案已经很清晰：端到端。

端到端自动驾驶（End-to-End Autonomous Driving, E2E）并不只是“单一神经网络”的技术概念，而是一整套围绕数据驱动构建的工程体系。它将多传感器输入（摄像头、毫米波雷达、激光雷达、定位信息与车辆状态）到驾驶输出（轨迹规划、转向/加速/制动控制）的全流程，纳入统一训练框架，并通过“数据闭环 + 持续训练迭代 + 回归验证 + OTA升级交付”的机制替代传统模块化规则开发。

从产业实践来看，端到端已经成为当前智能驾驶的“地基”。根据某行业调研数据显示，全球端到端自动驾驶市场未来几年将保持19.0%的年复合增长率（CAGR）。

这一数据背后有一个更关键的信号：端到端正在从“技术探索”转向“规模化商业体系”。

在应用层面，乘用车量产搭载页已成为核心场景。根据盖世汽车研究院的数据，截至2025年11月，国内乘用车L2及以上辅助驾驶渗透率已达64%，高速NOA渗透率29%，城市NOA也达到 8.5%。端到端架构的加速上车，是这一进展的重要推动力。

也就是说，今天绝大多数高阶辅助驾驶系统，已经运行在端到端体系之上。

但问题随之出现。

端到端解决的是结构问题——减少模块边界损耗、压缩延迟、提升泛化能力。但它并未天然解决“理解世界”的深层挑战。尤其在低频极端场景、复杂博弈行为和长尾分布下，纯端到端模型仍面临数据稀缺与推理能力受限的问题。

这正是VLA与世界模型开始进入体系内部的原因。

VLA通过引入语言模态，将视觉信息转化为可推理的语言token，使系统具备一定的解释和推演能力；而世界模型则更强调对物理与行为规律的整体建模，侧重“理解世界如何运转”。从当前趋势看，这两种路线并非对立，而是互补。

主机厂的选择已体现出这一融合趋势。盖世汽车观察得出，新势力中，理想、小鹏更偏向VLA路线，蔚来则押注世界模型；传统车企则多通过供应商实现端到端量产，并同步预研世界模型能力，例如华为的WEWA世界行为模型、Momenta 的强化学习大模型、卓驭的世界模型端到端方案等。

这些路径差异，并不代表技术路线分歧，而更多反映了各家在数据形态、算力布局和工程节奏上的不同选择。

可以预见，未来高阶智驾系统并不会在“端到端、VLA或世界模型”中三选一，而是以端到端为基底，融合语言推理与世界建模能力，形成统一的认知系统。

现实约束与落地路径：视觉世界模型如何“先上车”

需要明确的是，世界模型并不会以“完整形态”一步到位登上量产车。算力成本、数据分布偏差、功能安全与法规验证，仍然是必须跨越的现实门槛。

从算力趋势看，随着大模型能力上车，车端计算平台正向500 TOPS乃至千TOPS演进，云端算力规模也同步扩张。这意味着，世界模型在短期内更可能以增强模块的形式存在，而非完全替代现有系统。

在落地路径上，更可行的方式是先在云端完成世界模型训练与验证，通过仿真补齐长尾场景能力，再将核心能力蒸馏至车端，用于提升预测、规划或异常处理能力。这种“云端理解 + 车端执行”的模式，正在成为行业共识。

从功能层级看，世界模型最先服务的并非L4，而是L2+/L3阶段的安全冗余与体验提升。它解决的不是“自动驾驶是否可用”，而是“在复杂、不确定环境中，自动驾驶系统是否更稳健”。

总的来看，世界模型并非一项孤立技术，而是视觉系统、端到端架构与大模型能力共同演进的结果。它的成熟，将决定智能驾驶能否真正跨过“规则边界”，迈向更接近人类的决策方式。

如果说过去十年自动驾驶比拼侧重于“看见世界”，那么接下来，竞赛的核心将是——如何让自动驾驶系统更懂这个世界。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.