来源:市场资讯
(来源:36氪)
![]()
图片来源:视觉中国
文|肖漫
编辑|李勤
过去两三年,车企谈智驾必提及各类新颖的技术名词。
世界模型是继端到端、 VLA 后,智驾领域最时髦的词。不同公司还给它套上新的外壳——小鹏推出了“世界基座模型”、蔚来的叫“端到端世界模型”、华为的叫“世界行为模型”(WA)。除了他们,地平线、理想、元戎启行、Momenta也在做世界模型。
但只看他们的发布会,很难分清它们口中的世界模型到底是不是同一种东西?它究竟解决什么问题,又被放进智能驾驶架构的哪一个位置?
把视角拉到更广义的语境里,“世界模型”本质是在虚拟世界里再造真实世界,人工智能能像人一样理解现实世界,认知物理规律、事物的因果关系和环境动态的技术。
世界模型被大部分科学家和科技公司视为“物理世界 AI”技术远征的关键拼图。斯坦福大学教授李飞飞曾指出,空间智能是AI的下一个十年,而世界模型是构建空间智能的关键技术。
走在行业前沿的科学家和科技公司还在探索当中,但中国汽车行业已经用各种新颖的概念名词把位置占住。
实际上,智驾行业里今天谈的“世界模型”也只是名词差异,在技术路径上并没有太大差别。只是对行业原来的仿真工具进行技术范式升级,在还原度更高、颗粒度更高、场景更丰富、自由度更高的虚拟世界中,解决端到端模型测试、验证问题,这一切都是为了训练出效果更高、更加拟人的端到端智驾模型。
换句话说,智驾厂商和车企并非真正打造一个完整的数字物理世界,只是用世界模型的思路造仿真器。
也许各家对于世界模型的期待有所不同,但据我们了解,截至目前,智驾行业的世界模型只应用于云端,并没有用到汽车上。
端到端普及,凸显仿真器短板
过去两三年,头部梯队的智驾方案从规则栈转向AI驱动,在“形式上”完成了统一,感知、预测、规划被尽可能揉进一张网络里,外加更大的模型、更高的算力,用车企常在发布会上的话说“端到端之后的智驾更像人在开车”。
但在实际应用上却出现了一个反直觉现象:端到端之后的新版本OTA并不一定变得更好,甚至可能“退步”。
问题的核心不是模型变差了,而是AI驱动让评估和回归变得困难。
当时许多智驾从业者认为,只要把前端训练得足够好,车就会开得足够像人。这条路径并非没有效果,端到端的前期表现让许多智驾从业者大为震撼,但端到端的“黑盒”形态也带来的副作用,当模型出错时,研发人员很难得知为什么犯错?如何证明它在下一次不会再犯?
模型好不好不再只是“训练得够不够大、数据够不够多”的问题,更取决于你如何发现问题、定义问题、验证问题。厂商们逐渐意识到,需要一个更好的仿真器在模型验证阶段用来评估模型的表现。
头部梯队玩家大都打造世界模型作为仿真器应用。为了能够让理想VLA在仿真环境里进行强化学习,理想在2025年提出了一种包含自车和他车轨迹的驾驶世界模型,充当打分老师;小鹏尽管对外只说了“世界基座模型”这一本质上世界模型无关的技术名词,但据36氪汽车了解,小鹏也在采用世界模型做仿真测试,评测新版本的模型算法能力。
端到端的普及暴露出传统仿真器的短板。“以前端到端还不是这么普及的时候,大家验证成本也没那么高,还可以分段去验证一下系统。现在端到端了以后,没法分段验证系统了,这个时候仿真器的问题就凸显出来了。”一位业内研发人员说道。
在规则时代,车企做仿真往往服务于两件事,一是半路接管的问题重现,把路测里出过事的片段拿回来回放;二是的使用仿真器增加corner case的数据丰富度,在模拟器里搭几个典型路口、横穿行人、加塞车辆的脚本场景,让系统跑一遍。
当时的仿真器更多承担“放大镜”的角色,但端到端之后,模型很难再把责任拆开,且很难系统性地产生更细的、可控的 corner case,更难支撑端到端所需要的大规模闭环验证——而这正是世界模型被引入的原因。
端到端时代,世界模型是智驾模型的“教练”
“目前国内车企世界模型的水平和特斯拉存在一定距离,不过仅相差了不到一年时间。”一位业内人士说道。
特斯拉并未使用“世界模型”的概念,而是采用了“世界模拟器”的说法(特斯拉自动驾驶副总裁Ashok Elluswamy在去年的ICCV上首次提及),该模拟器基于特斯拉自建的海量数据集进行训练,根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环,做真实效果的评估。
![]()
特斯拉神经网络闭环仿真(图片来源:
一位业内人士指出,特斯拉更像是在用神经网络“拟合”世界,渲染过程是通过计算生成,尽量减少显式的物理规则堆叠;素材库也并非完全由人提前预定义,而是保留了某种概率权重与组合空间。而这么做的好处是,模型能够具备更强的泛化能力。
国内车企走的多是另一条更“可控”的路。与36氪汽车交流的一家供应商表示,理想采用的是 3D 高斯重建——这也是目前大多数车企在采用的方式之一。
无论是哪种路线,世界模型在工程上最终都指向同一个位置:世界模型正在被车企当作端到端时代的“验证与反证系统”,用来在云端重放、改写、扩增现实驾驶中可能发生的情境,检验车端大模型的输出是否稳定、可复现,并把“哪里错、为什么错”重新变成可追踪的证据链。
世界模型扮演的角色好比教练员,优秀的教练员更能够调教出优秀的运动员。“随着云端世界模型越来越强,理论上训练出来端侧模型能力就应该是越来越强。”一位研发人员说道。
世界模型核心能力主要有两个方面:一是对物理世界的数字化建模和抽象;二是基于这样的建模,产生对物理世界合理的想象和预测,例如通过给定的图片预测未来世界将会如何变化。
世界模型的好坏取决于就是在云端能生成足够真实、足够多样性的数据。“车企如果只是用采到的真实数据去做仿真,那显然并不是在做世界模型,只是做一套回放数据的流程而已。”一位供应商产品经理说道。
世界模型需要从物理世界的数据中学习到世界的运行模式,因此世界模型的训练数据质量会显著影响模型生成的质量。极佳视界产品线负责人毛继明提到,“对于世界模型这样的生成模型,它的生成结果最终会对齐输入数据的特征分布规律。在真实的世界模型商业化过程中我们发现,如果数据质量只有60分,基于此的世界模型的生成数据质量可能就只有55分。”
基于世界模型,车企在云端做仿真的时候,可以无限制的从各个维度去去生成需要的场景,能够根据指令生成视频作为训练数据。“效率比真实采集后再去训练高了不是一星半点,模型迭代速度也会是断代式领先。”一位供应商研发人员说道。
但这些都是理想化的结果。“世界模型相对于智驾用的仿真器来说,或者说没有仿真信息,只能用离线采的数据来做验证已经是很大的升级了,但距离理想状态的仿真器还差得多。”
世界模型算法还未成熟,还有很多“幻觉”
行业现在普遍处在“刚开始”的阶段。
一位车企研发人员告诉36氪汽车,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体的一致性并不好,无论是时空的一致性还是多视角一致性都存在较大问题。
世界模型的底层是生成式模型,而生成式模型天生带着“幻象”的风险。“世界模型目前最难的地方是怎么能保证生成的东西是真实的,如果是生成一个人,怎么保证他的行为、轨迹是在真实世界里可能发生的。”一位供应商产品经理说道。“如果世界模型生成错乱,会导致模型学到的东西都是错的,进而导致到部署到车端的模型效果非常差。”
一个极端的例子是,如果云端生成的车都是横着走的,那模就会认为一个在左前方的车会瞬间移动到右前方,在实际开车的过程中,模型就可能做出刹车的行为。
一个仿真器如果无法逼近现实世界的关键因果关系,比如湿滑路面对制动距离的影响、逆光下对静止物体的误检概率、并线时对方车辆的博弈策略等,它生成的“corner case”就可能是假的;你在假问题上优化,等于把研发资源浪费在幻影上。
在很多人看来,世界模型的瓶颈在数据与算力,但前理想汽车辅助驾驶“端到端”模型负责人夏中谱更同意Lecun的观点:“世界模型算法层面没有大突破,图像模型的自监督训练还没有像语言那样,找到一个比较顺的范式。”
语言模型之所以能迅速规模化,一个原因是语言本身信息密度高,每个词都携带明确的语义约束。而图像信息密度低,对“驾驶决策”而言,有用信息只占极小部分。
例如,模型不需要预测正后方很远那辆车的轨迹,也不需要预测远处建筑物的变化,这些都是噪声数据;但必须预测本车道前车是否会突然急刹、旁车是否会抢道、行人是否会突然横穿,模型要先知道“该把注意力放在哪”。
“目前智驾算法提取不出足够对驾驶有用的图像信息。”夏中谱说道。一张图像有可能有上百万个像素点,但跟决策相关的就20多个像素点,其他的都是噪音,模型得先学会从噪声里抓出那 1‰ 甚至 1‱ 的有效信号,再谈得上如何把信号组织成可用于推理与预测的结构。
夏中谱看来,世界模型算法尚未突破,更谈不上数据是否足够、算力需要多少的问题。也正是世界模型现在基础技术还没看到明确突破,车企的投入更多是研究性质的,甚至部分车企老板对此都是迷茫。
如果世界模型做得足够好,且在算力能够支撑的情况下,是能够放进车端。“国内现在基本把世界模型当仿真系统用,对智驾决策层面的技术理解程度还不够。”夏中谱说道。
它也能解释一个表面矛盾:为什么各家都在讲世界模型,但用户体感差异并不明显——因为大多数人的世界模型仍停留在“用于训练与验证”的第一阶段,而不是进入“能支撑决策规划”的第二阶段。
“端侧部署世界模型是最难的。”夏中谱说道。
目前还没有任何一家公司在端侧应用世界模型。他同时指出,“使用大模型方法建模物理世界,通过自身与物理世界的交互预测世界发展变化,进而通过决策影响世界朝着对自身有利方向发展。如果世界模型做到这个层面,自动驾驶和机器人相关问题都是可以解决的。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.