网易首页 > 网易号 > 正文 申请入驻

世界模型,是自动驾驶的终极答案吗?

0
分享至


图片来源:视觉中国

文|肖漫

编辑|李勤

过去两三年,车企谈智驾必提及各类新颖的技术名词。

世界模型是继端到端、 VLA 后,智驾领域最时髦的词。不同公司还给它套上新的外壳——小鹏推出了“世界基座模型”、蔚来的叫“端到端世界模型”、华为的叫“世界行为模型”(WA)。除了他们,地平线、理想、元戎启行、Momenta也在做世界模型。

但只看他们的发布会,很难分清它们口中的世界模型到底是不是同一种东西?它究竟解决什么问题,又被放进智能驾驶架构的哪一个位置?

把视角拉到更广义的语境里,“世界模型”本质是在虚拟世界里再造真实世界,人工智能能像人一样理解现实世界,认知物理规律、事物的因果关系和环境动态的技术。

世界模型被大部分科学家和科技公司视为“物理世界 AI”技术远征的关键拼图。斯坦福大学教授李飞飞曾指出,空间智能是AI的下一个十年,而世界模型是构建空间智能的关键技术。

走在行业前沿的科学家和科技公司还在探索当中,但中国汽车行业已经用各种新颖的概念名词把位置占住。

实际上,智驾行业里今天谈的“世界模型”也只是名词差异,在技术路径上并没有太大差别。只是对行业原来的仿真工具进行技术范式升级,在还原度更高、颗粒度更高、场景更丰富、自由度更高的虚拟世界中,解决端到端模型测试、验证问题,这一切都是为了训练出效果更高、更加拟人的端到端智驾模型。

换句话说,智驾厂商和车企并非真正打造一个完整的数字物理世界,只是用世界模型的思路造仿真器。

也许各家对于世界模型的期待有所不同,但据我们了解,截至目前,智驾行业的世界模型只应用于云端,并没有用到汽车上。

端到端普及,凸显仿真器短板

过去两三年,头部梯队的智驾方案从规则栈转向AI驱动,在“形式上”完成了统一,感知、预测、规划被尽可能揉进一张网络里,外加更大的模型、更高的算力,用车企常在发布会上的话说“端到端之后的智驾更像人在开车”。

但在实际应用上却出现了一个反直觉现象:端到端之后的新版本OTA并不一定变得更好,甚至可能“退步”。

问题的核心不是模型变差了,而是AI驱动让评估和回归变得困难。

当时许多智驾从业者认为,只要把前端训练得足够好,车就会开得足够像人。这条路径并非没有效果,端到端的前期表现让许多智驾从业者大为震撼,但端到端的“黑盒”形态也带来的副作用,当模型出错时,研发人员很难得知为什么犯错?如何证明它在下一次不会再犯?

模型好不好不再只是“训练得够不够大、数据够不够多”的问题,更取决于你如何发现问题、定义问题、验证问题。厂商们逐渐意识到,需要一个更好的仿真器在模型验证阶段用来评估模型的表现。

头部梯队玩家大都打造世界模型作为仿真器应用。为了能够让理想VLA在仿真环境里进行强化学习,理想在2025年提出了一种包含自车和他车轨迹的驾驶世界模型,充当打分老师;小鹏尽管对外只说了“世界基座模型”这一本质上世界模型无关的技术名词,但据36氪汽车了解,小鹏也在采用世界模型做仿真测试,评测新版本的模型算法能力。

端到端的普及暴露出传统仿真器的短板。“以前端到端还不是这么普及的时候,大家验证成本也没那么高,还可以分段去验证一下系统。现在端到端了以后,没法分段验证系统了,这个时候仿真器的问题就凸显出来了。”一位业内研发人员说道。

在规则时代,车企做仿真往往服务于两件事,一是半路接管的问题重现,把路测里出过事的片段拿回来回放;二是的使用仿真器增加corner case的数据丰富度,在模拟器里搭几个典型路口、横穿行人、加塞车辆的脚本场景,让系统跑一遍。

当时的仿真器更多承担“放大镜”的角色,但端到端之后,模型很难再把责任拆开,且很难系统性地产生更细的、可控的 corner case,更难支撑端到端所需要的大规模闭环验证——而这正是世界模型被引入的原因。

端到端时代,世界模型是智驾模型的“教练”

“目前国内车企世界模型的水平和特斯拉存在一定距离,不过仅相差了不到一年时间。”一位业内人士说道。

特斯拉并未使用“世界模型”的概念,而是采用了“世界模拟器”的说法(特斯拉自动驾驶副总裁Ashok Elluswamy在去年的ICCV上首次提及),该模拟器基于特斯拉自建的海量数据集进行训练,根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环,做真实效果的评估。


特斯拉神经网络闭环仿真(图片来源:

一位业内人士指出,特斯拉更像是在用神经网络“拟合”世界,渲染过程是通过计算生成,尽量减少显式的物理规则堆叠;素材库也并非完全由人提前预定义,而是保留了某种概率权重与组合空间。而这么做的好处是,模型能够具备更强的泛化能力。

国内车企走的多是另一条更“可控”的路。与36氪汽车交流的一家供应商表示,理想采用的是 3D 高斯重建——这也是目前大多数车企在采用的方式之一。

无论是哪种路线,世界模型在工程上最终都指向同一个位置:世界模型正在被车企当作端到端时代的“验证与反证系统”,用来在云端重放、改写、扩增现实驾驶中可能发生的情境,检验车端大模型的输出是否稳定、可复现,并把“哪里错、为什么错”重新变成可追踪的证据链。

世界模型扮演的角色好比教练员,优秀的教练员更能够调教出优秀的运动员。“随着云端世界模型越来越强,理论上训练出来端侧模型能力就应该是越来越强。”一位研发人员说道。

世界模型核心能力主要有两个方面:一是对物理世界的数字化建模和抽象;二是基于这样的建模,产生对物理世界合理的想象和预测,例如通过给定的图片预测未来世界将会如何变化。

世界模型的好坏取决于就是在云端能生成足够真实、足够多样性的数据。“车企如果只是用采到的真实数据去做仿真,那显然并不是在做世界模型,只是做一套回放数据的流程而已。”一位供应商产品经理说道。

世界模型需要从物理世界的数据中学习到世界的运行模式,因此世界模型的训练数据质量会显著影响模型生成的质量。极佳视界产品线负责人毛继明提到,“对于世界模型这样的生成模型,它的生成结果最终会对齐输入数据的特征分布规律。在真实的世界模型商业化过程中我们发现,如果数据质量只有60分,基于此的世界模型的生成数据质量可能就只有55分。”

基于世界模型,车企在云端做仿真的时候,可以无限制的从各个维度去去生成需要的场景,能够根据指令生成视频作为训练数据。“效率比真实采集后再去训练高了不是一星半点,模型迭代速度也会是断代式领先。”一位供应商研发人员说道。

但这些都是理想化的结果。“世界模型相对于智驾用的仿真器来说,或者说没有仿真信息,只能用离线采的数据来做验证已经是很大的升级了,但距离理想状态的仿真器还差得多。”

世界模型算法还未成熟,还有很多“幻觉”

行业现在普遍处在“刚开始”的阶段。

一位车企研发人员告诉36氪汽车,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体的一致性并不好,无论是时空的一致性还是多视角一致性都存在较大问题。

世界模型的底层是生成式模型,而生成式模型天生带着“幻象”的风险。“世界模型目前最难的地方是怎么能保证生成的东西是真实的,如果是生成一个人,怎么保证他的行为、轨迹是在真实世界里可能发生的。”一位供应商产品经理说道。“如果世界模型生成错乱,会导致模型学到的东西都是错的,进而导致到部署到车端的模型效果非常差。”

一个极端的例子是,如果云端生成的车都是横着走的,那模就会认为一个在左前方的车会瞬间移动到右前方,在实际开车的过程中,模型就可能做出刹车的行为。

一个仿真器如果无法逼近现实世界的关键因果关系,比如湿滑路面对制动距离的影响、逆光下对静止物体的误检概率、并线时对方车辆的博弈策略等,它生成的“corner case”就可能是假的;你在假问题上优化,等于把研发资源浪费在幻影上。

在很多人看来,世界模型的瓶颈在数据与算力,但前理想汽车辅助驾驶“端到端”模型负责人夏中谱更同意Lecun的观点:“世界模型算法层面没有大突破,图像模型的自监督训练还没有像语言那样,找到一个比较顺的范式。”

语言模型之所以能迅速规模化,一个原因是语言本身信息密度高,每个词都携带明确的语义约束。而图像信息密度低,对“驾驶决策”而言,有用信息只占极小部分。

例如,模型不需要预测正后方很远那辆车的轨迹,也不需要预测远处建筑物的变化,这些都是噪声数据;但必须预测本车道前车是否会突然急刹、旁车是否会抢道、行人是否会突然横穿,模型要先知道“该把注意力放在哪”。

“目前智驾算法提取不出足够对驾驶有用的图像信息。”夏中谱说道。一张图像有可能有上百万个像素点,但跟决策相关的就20多个像素点,其他的都是噪音,模型得先学会从噪声里抓出那 1‰ 甚至 1‱ 的有效信号,再谈得上如何把信号组织成可用于推理与预测的结构。

夏中谱看来,世界模型算法尚未突破,更谈不上数据是否足够、算力需要多少的问题。也正是世界模型现在基础技术还没看到明确突破,车企的投入更多是研究性质的,甚至部分车企老板对此都是迷茫。

如果世界模型做得足够好,且在算力能够支撑的情况下,是能够放进车端。“国内现在基本把世界模型当仿真系统用,对智驾决策层面的技术理解程度还不够。”夏中谱说道。

它也能解释一个表面矛盾:为什么各家都在讲世界模型,但用户体感差异并不明显——因为大多数人的世界模型仍停留在“用于训练与验证”的第一阶段,而不是进入“能支撑决策规划”的第二阶段。

“端侧部署世界模型是最难的。”夏中谱说道。

目前还没有任何一家公司在端侧应用世界模型。他同时指出,“使用大模型方法建模物理世界,通过自身与物理世界的交互预测世界发展变化,进而通过决策影响世界朝着对自身有利方向发展。如果世界模型做到这个层面,自动驾驶和机器人相关问题都是可以解决的。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

忠于法纪
2026-01-07 17:46:09
CCTV5直播!上海男篮对阵北京两喜一忧 王哲林大战周琦,悬念很大

CCTV5直播!上海男篮对阵北京两喜一忧 王哲林大战周琦,悬念很大

中国篮坛快讯
2026-05-14 09:36:10
别人西装革履装严肃,唯独他举手机乱拍,马斯克为何如此与众不同

别人西装革履装严肃,唯独他举手机乱拍,马斯克为何如此与众不同

眼界看视野
2026-05-14 14:43:00
人和人相处久了就会发现,低层次的人喜欢占便宜,中层次的人沉迷于交换,而真正的高层次人群都在默默做着这两件事

人和人相处久了就会发现,低层次的人喜欢占便宜,中层次的人沉迷于交换,而真正的高层次人群都在默默做着这两件事

心理观察局
2026-05-06 07:28:05
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
有100万存款的家庭,日子过得咋样?网友分享让人大跌眼镜!

有100万存款的家庭,日子过得咋样?网友分享让人大跌眼镜!

夜深爱杂谈
2026-03-02 22:37:17
我最爱的5个健身动作,看看有你爱的吗?

我最爱的5个健身动作,看看有你爱的吗?

FitEmpire健身领域
2026-05-14 16:13:54
父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

另子维爱读史
2026-05-14 20:24:27
苹果正式宣布,这项重要功能终于开放!

苹果正式宣布,这项重要功能终于开放!

XCiOS俱乐部
2026-05-12 10:13:11
“空军一号”来华菜单曝光:牛肉炒面、春卷、幸运饼干等美式中餐

“空军一号”来华菜单曝光:牛肉炒面、春卷、幸运饼干等美式中餐

台州交通广播
2026-05-14 23:40:37
哈登:这一切对我来说都是新的 在学习如何担任球队二当家的角色

哈登:这一切对我来说都是新的 在学习如何担任球队二当家的角色

北青网-北京青年报
2026-05-14 21:20:20
经济学家:央视不播世界杯是危险信号 知名博主:将会引发灾难

经济学家:央视不播世界杯是危险信号 知名博主:将会引发灾难

念洲
2026-05-14 14:30:14
四川一地推4000元钓鱼年卡,称为治理入侵鱼类,为何不用捕捞?

四川一地推4000元钓鱼年卡,称为治理入侵鱼类,为何不用捕捞?

贵重物品爱美食
2026-05-14 23:29:14
2比0完胜卡塔尔!国少时隔21年重返世少赛,年度五大目标全部收官

2比0完胜卡塔尔!国少时隔21年重返世少赛,年度五大目标全部收官

茶余饭后说体育
2026-05-13 21:28:19
12岁男孩确诊癌症晚期!研究证实:这5种添加剂正在升高癌症风险……

12岁男孩确诊癌症晚期!研究证实:这5种添加剂正在升高癌症风险……

环球网资讯
2026-05-11 14:21:45
一位知青后代的困惑:抛弃他的生母就在身边,他要不要跟妈妈相认

一位知青后代的困惑:抛弃他的生母就在身边,他要不要跟妈妈相认

草根情感故事茶社
2026-05-13 11:02:42
“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

“扶弟魔”姐姐十年买房又给钱,却被弟弟一怒砍杀:钱给的不够花

莫地方
2026-05-13 00:40:03
彻底瞒不住了,何九华承认自己当爹,称孩子已2岁,王鸥回应打脸

彻底瞒不住了,何九华承认自己当爹,称孩子已2岁,王鸥回应打脸

观察者海风
2026-05-14 11:50:48
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
日本儿童最爱的零食之一 宣布将因石脑油短缺而停产

日本儿童最爱的零食之一 宣布将因石脑油短缺而停产

中国能源网
2026-05-14 11:01:20
2026-05-15 02:36:49
36氪 incentive-icons
36氪
让一部分人先看到未来
151363文章数 2848762关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

马斯克幼子装扮“火”了 衣服包包都是中国造

头条要闻

马斯克幼子装扮“火”了 衣服包包都是中国造

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

亲子
健康
旅游
教育
军事航空

亲子要闻

孤独症特教老师的工作,远不止“教说话”!(下)

专家揭秘干细胞回输的安全风险

旅游要闻

日照五莲:云海日出映青山

教育要闻

老师的绩效也随工资发了,领导好像不太能拿捏老师们了!

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版