自动驾驶从模块化到One Model的进阶之路|冗余|模型化|汽车智能|model

自动驾驶从模块化到One Model的进阶之路

2025-11-23 09:46:41　来源: 智驾最前沿

江苏举报

分享至

[首发于智驾最前沿微信公众号]如果将自动驾驶汽车看作是一台懂得“看、想、做”的机器，它首先要做的就是借助传感器全面感知周围环境，然后对这些信息进行“思考”，并做出预测与决策，预测决策结果最终可以转化为具体的控制指令并执行。自动驾驶的工作逻辑已经非常清晰，但技术实现路径却一直在迭代，并沿着一条清晰的轨迹演进。从专注“理解”的感知模型化，到赋予“思维”的规控模型化，再到协同增效的多模块端到端，最终一定会走向One Model端到端。

图片源自：网络

感知模型化，专注“理解清楚”

自动驾驶的第一阶段，主要是做好理解清楚世界这件事。在这个阶段，感知系统非常重要，其实现路径高度依赖于多传感器（摄像头、毫米波雷达、激光雷达）的前端融合，而BEV（鸟瞰视角）空间与Transformer架构，因其能统一处理不同来源的特征并建立全局关联，成为实现这一目标的主要工具，通过硬件与软件的融合，可显著提升目标检测、地图分割与轨迹跟踪的可靠性。在这一阶段，需要考虑感知精度、低误报率、对光照和天气变化的鲁棒性等，同时也要保证实时性与可部署性。

图片源自：网络

这一阶段，自动驾驶模块边界清晰，工程责任明确，便于验证和上线。感知模块输出的是明确的如目标的2D/3D框、车道线、语义地图等中间结果，上层预测与规划模块也可以直接读取这些结果，更容易做安全检查和异常处理。

独立的感知模块使得数据标注和训练流程相对可控，但也正因如此，系统存在模块间信息离散、有损传递等问题。那些经人为接口（如目标类别、边界框）抽象后的结果，也无法保留传感器原始数据中的全部细节。这种信息损失在多数情况下尚可接受，但在需要细粒度环境理解、长时序依赖分析或跨模态信息融合的复杂场景中，就会严重阻碍系统做出最佳决策，从而限制其性能上限。

规控模型化，让“思考”与“行动”也神经化

在规控模型化阶段，预测、决策、规划等“规控”功能开始用神经网络实现，但系统仍保留“感知”与“规控”两个相对独立的模型。也就是说，系统的感知部分可以产出的是一个清晰、可解释的语义世界图，而规控部分的预测和规划任务，则交给了深度学习网络来完成，不再依赖传统的规则或优化器。这种架构将学习能力延伸至更高层，使行为策略能够从数据中学习更复杂的模式，同时也保留了模块化带来的可控性。

图片源自：网络

规控模型化的确可以让自动驾驶汽车变得更聪明，因为感知和规控是两个独立的模块，出了问题也容易定位和调试。但也正因为两者是分开的，两个模块之间传递信息，就像在传纸条，总会有细节丢失。可能感知模块看到的一个细微动作对决策至关重要，但传过去时却被压缩或丢弃了，这就导致决策模型无法充利用全部信息。而且两个模块各练各的，即便感知练到满分，也不代表它给规控的信息就是最有利于最终决策的，这样反而无法提升自动驾驶的整体性能。

这一阶段其实是自动驾驶发展过程中一个折中的阶段，由于希望上层更智能，又不愿放弃模块化带来的可解释性与验证便利，只能做这种选择。很多头部公司也正尝试在规控端引入更多学习能力，同时通过设计更丰富的感知中间表达和更紧密的特征接口，来缓解信息损失的问题。

多模块端到端，打通关节，信息传递更完整

多模块端到端的关键在于接口形式的改变，感知与规划之间不再通过人为设计的语义标签或边界框传递信息，而是使用隐式的特征向量进行连接。也就是说，系统在逻辑上仍保留如感知、预测、规划的“模块化”划分，但这些模块之间传递的是高维连续特征，允许梯度跨模块反向传播。这样一来，训练过程可以同时影响所有模块，实现跨模块联合优化，从而可以实现全局最优解。UniAD等架构就是这一方案的典型代表，将检测、跟踪、预测、规划等任务置于同一框架下联合训练，各任务共享特征表示，从而互相促进。

图片源自：网络

多模块端到端的好处是信息保留更完整，网络可以不依赖人类预设的格式，就学到对下游任务最有价值的中间表达。因为模块依然存在，可以在部署时保留一定边界，便于逐步替换或回退，降低了风险。这种架构更是让训练效率显著提升，通过共享特征和联合损失函数，模型能更充分地利用数据，即使是稀缺场景，也能通过联合训练获得更好的泛化能力。

引入多模块端到端设计后，系统复杂度也明显上升，这不仅意味着训练需要消耗更多的数据与算力，也使得整个流程对超参数和损失权重的设置更加敏感。随之而来的还有模型可解释性的降低，当不同任务（如检测与规划）的学习目标不一致时，调试难度会大幅增加。由于各模块深度集成，若系统在某个场景失效，将很难快速定位到具体的原因，这极大地拖慢了认证进程。此外，尽管梯度能够跨模块流动以寻求全局最优，但也同时引入了训练不稳定和梯度冲突的风险，这必须依靠专门的训练策略和平衡机制来维持稳定。

One Model端到端，自动驾驶完美方案

One Model端到端，是一种更彻底的端到端思路，该架构的目标是从原始传感器信号（如图像像素、雷达点云）到最终控制指令或轨迹，全部由一个统一的深度学习模型完成。这里不再有传统意义上的感知、预测、规划等模块划分，模型内部通过自学形成完成任务所需的全部中间表达和处理路径。这种架构能完整利用传感器的每一分信息，避免人为接口造成的信息瓶颈，从而在复杂场景中实现更高的性能与更好的泛化能力。

图片源自：网络

One Model端到端需要极大的数据与算力支撑，以覆盖足够多的驾驶场景与边界情况。模型容量、训练样本覆盖面以及监督信号的设计（如行为克隆、逆强化学习、强化学习等混合策略）都会直接影响最终性能。由于这类模型更接近“大模型”范式，可借鉴自然语言处理或视觉大模型中的预训练-微调策略，先利用海量无标签或弱标签数据预训练，再用少量高质量决策数据进行微调。

该架构中，由于模型一体化，可解释性与可验证性问题也出现了，当系统内部没有清晰的模块边界，如何构建安全论证、通过法规或行业认证就成了难题。自动驾驶模型想合规利用，需要解释系统在特定情境下为何做出某个行为，而“一体化”的黑箱模型很难满足这一要求。这一方案的鲁棒性与可控性也是需要考虑的问题，若系统在稀有场景出错时，如何快速定位、修复与回滚？传统模块化可以只替换一个模块，而“大模型”可能需要重新训练或大幅微调。在安全关键系统中，冗余设计（如双通道独立感知链路）是常态，但“一体化”模型如何设计冗余、如何在部分传感器失效时降级，是必须解决的难问题。

虽然很多人将One Model端到端视为自动驾驶的“终极形态”，但短期内它更可能作为研究前沿或特定场景（如封闭园区、低速环境）的试验方案，想真正将其落地，还需很长一段路要走。

最后的话

将上述四个阶段放在一起看，可以将自动驾驶系统理解为一条从“可解释、可控”逐步走向“信息完整、潜在性能更强”的技术演进路径，感知模型化适合将“看清楚”做到极致；规控模型化让“思考”与“行动”更智能；多模块端到端在效率与完整性之间找到平衡；One Model端到端虽代表理论上的性能上限，却伴随验证、解释与部署上的巨大挑战。无论选择哪种架构，自动驾驶的最终目的还是服务于人，只有在确保安全的前提下将技术用到极致，才是真正有用的技术架构。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.