世界模型——从端到端到自我认知的跃迁|轨迹

世界模型——从端到端到自我认知的跃迁

2025-12-24 09:34:23　来源: 汽车之友

北京举报

分享至

导言

很多宣传把世界模型讲得像“车能理解世界”，听上去仿佛系统突然长了大脑。其实它更像一幅随时更新的小地图，把前后几秒的变化连成一段，让系统别被一帧画面牵着走。这篇想把世界模型从神话里拉回来，讲清它到底在解决什么，又在哪些地方还做不到。

要理解世界模型，先得看清过去的系统是怎么“卡壳”的。只有知道旧链路里哪里不连贯，世界模型为何出现、能改变什么、又改不了什么才会变得清楚。

从反应到连贯

早期自动驾驶系统更像一台忙个不停的反应机。感知、决策、控制被拆成几个模块，摄像头和雷达把画面推上来，系统根据当前这一帧迅速给出动作。每个模块单看都不算慢，可数据在各个环节之间反复转译，细小的延迟叠在一起，最后就变成驾驶者能感到的那一点犹豫。方向盘轻轻晃一下，刹车比想象中更早点一下，很多时候都来自这种链路内部的不连贯。

不同目标的轨迹预测

后来端到端方法出现，把这条链路拉直了。信息不再绕大圈，车辆动作更干脆，很多人会据此觉得“系统聪明了”。工程师知道，它只是把路径缩短了，模型仍然是盯着一帧一帧的画面做映射。看到什么就做什么，靠的是反馈速度，而不是理解能力。问题在于，人类驾驶从来不是一帧一帧地看，而是把整段路当成一个有节奏的过程。我们会在前方气氛变紧的时候提前松油，也会在某个行人突然停下脚步时多留一点距离。这种节奏感建立在“连续”之上，而不是一连串切开的画面。

工程团队在海量道路数据里发现，只要系统不被锁死在“当前这一下”，而是能把前后几秒串起来看，动作就会稳定很多。世界模型正是这种需求下的产物，它试图为系统搭一个内部的连续环境，让系统不再只对瞬间做出反应，而是基于一段过程作判断。它不是让车突然变聪明，而是给了它一点“连贯”的能力。

世界模型改变了什么

世界模型听上去很科幻，实际上是一种新的学习方式。它让系统在内部搭建一个简化世界，把车道线、信号灯、行人和车辆轨迹重新组织成可以推演的场景。系统不只盯着现在这一帧，而是会顺着前后的变化推一推，判断“下一秒更可能出现哪几种情况”。

规划感知轨迹预测

比如，前车轻轻松油，人类司机往往能很快感到节奏变了，知道它可能在观察路况或者准备换道。传统系统必须等到速度明显变化才有所反应。有了世界模型，系统可以在内部试着推几种可能的轨迹，估计对方是在整理节奏、遇到拥堵，还是准备变道。动作的提前量就来自这种内部的小推演。

这种推演不是思考，它完全建立在海量数据上。逻辑有点像天气预报根据历史气象数据预测降雨，只是这里换成了位置、速度和加速度。它不研究“为什么要这么做”，而是学会“在这种情况下大多数人通常这样做”。外界看到的是“它好像会预判了”，工程师看到的是一堆损失曲线和训练样本，它们在告诉系统“过去类似场景里，大致应该怎么表现”。

轨迹预测模型

世界模型带来的最大改变，并不是让系统多出悟性，而是让动作少一点突然。它帮系统把很多本来会被当成偶然的变化，变成可以提前准备的趋势。车辆在城市拥堵、高速并线、复杂路口这些场景里的表现会更平滑，少一点“突然踩一下”的感觉。这种顺畅并不神秘，本质上是系统在内部多看了一眼前后因果。

理解世界不等于理解人

当系统有了一个内部世界，工程师很快意识到它仍然只能看到“结果”，很难触及“原因”。它可以预测前车轨迹，但理解不了礼让的意图；可以识别行人的动作，却读不懂那是不是一种“请先走”的示意。对系统来说，世界主要由速度、位置和方向构成，人与人之间那些轻微而关键的沟通太难量化。

连续帧处理提取关键帧

真正的驾驶决策，有相当一部分和物理量无关。十字路口一个小小的点头，外卖车骑手突然加快几步的节奏，孩子紧握大人手指的动作，这些都在影响人类司机的判断。我们会把过去的经验、对他人处境的想象和当下的风险评估揉在一起，做一个在当下看来“合理”的选择。系统没有这层能力，它只能从图像和轨迹里揣摩模式，无法理解其中的意图和情绪。

即便工程师不断往训练数据里塞进更多姿态、表情和行为，模型也很难真正读懂这些背后的含义。对它来说，这些只是更多需要拟合的模式。它所谓的“理解世界”，其实是在经验范围之内找到一个稳定动作的能力。一旦遇到超出经验之外的组合，它就会显得陌生，表现得更保守或者更迟疑。

行人轨迹预测结果

从这个角度看，“世界模型让车理解世界”这句话并不准确。更贴切的说法是，它让系统在已知世界里少一些慌张，能以一种更连贯的方式处理变化。规则、意图和情绪这些层面，仍然是明显的空白。

工程现实比概念更硬

世界模型被讲得越浪漫，工程现场就显得越朴素。为了让系统掌握足够多的“世界”，测试车要在不同城市、不同天气、不同时间反复跑，采集视频、雷达和车辆状态数据。采集回来的数据要被拆分、筛选、标注，剔除噪声和错误，才有资格成为模型的“教材”。

训练往往需要持续数周，算力集群日夜不停地跑，工程师每天盯着损失函数的变化，观察模型在新旧数据上的表现差异。训练看上去顺利，并不代表可以立刻上路。雨夜、高速大弯道、拥堵路段这些场景，才是最容易暴露问题的地方。一旦模型在某一种场景的表现不稳定，就必须回到数据和结构上重新检查。

法规同样给出了明确要求。《智能网联汽车道路测试与示范应用管理规范（试行）》强调自动化决策必须具备可追溯能力，也就是系统的关键动作都要能被还原。世界模型的结构层级本来就多，一旦出现异常，工程师必须沿着内部链路一层层追溯来源，这会在可还原的要求下显著增加检查成本。因此在模型之外，工程团队通常还要额外搭建审查链路，让关键节点的判断能够被清晰复盘。

不同企业对架构的选择也各有取舍。有的押注集中式算力，希望通过统一平台获得稳定的一致性；有的坚持分布式控制，把部分权力交给各个控制单元，换取局部的灵活和冗余。两条路都合理，本质上是成本、安全和开发节奏之间的平衡。

从外面看，世界模型让车更像“会预判”；从工程视角看，它每一点进步，都是人类把细节一处处补齐之后的结果。它所谓的“理解”，大多是工程团队把碎片拼成体系，再让模型在这个体系里稳稳运行。

结语

界模型的价值，在于把“当下这一帧”变成“前后几秒的一段”，让车辆行动更连贯、更少突然。请对消费者说人话，它不是让车长出思考，而是让系统把几秒钟连起来看，少做点盲算，多一点稳妥。

欢迎线上购买《汽车之友》杂志

北京时尚

成都杂志铺

扫码进店，线上购买，快递到家

获取更多图文资讯，欢迎关注《汽车之友》微信公众号

获取更多视频资讯，敬请关注《汽车之友》视频号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.