网易首页 > 网易号 > 正文 申请入驻

北交大 x 小米 EV 团队:一次关于世界模型「靠不靠谱」的系统复盘

0
分享至


当世界模型服务于系统整体而非单一任务时,其价值才得以体现。

作者丨郑佳美

编辑丨岑峰

在自动驾驶研究不断向世界模型演进的过程中,一个长期被回避却无法忽视的问题正逐渐凸显:模型在论文中的性能提升,是否真的对应着系统在真实驾驶环境中的鲁棒性提升?

过去数年中,大量工作通过更复杂的生成结构、更精细的预测目标和更先进的训练策略,使世界模型在视觉预测与场景生成指标上取得了显著进展。然而,在工程实践中,这些看起来 reminder 的模型,往往并不能稳定支撑长期决策、复杂交互和安全约束并存的真实驾驶系统。

问题并不完全出在模型本身,而更深层地指向了实验范式与评测目标的错位:我们究竟在通过实验验证什么?是模型是否预测得更像,还是系统是否运行得更稳?在缺乏统一任务定义、系统级闭环验证和可信评测标准的前提下,世界模型的能力边界正在被系统性高估。

正是在这一背景下,北京交通大学研究团队联合小米汽车自动驾驶与具身智能算法团队,在论文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,对自动驾驶世界模型进行了不同于传统综述的系统性审视。

这项工作并未提出新的模型或算法,而是基于大量已有实验结果,重构了一套以鲁棒性为核心变量的分析框架,从生成评测、结构化空间建模、规划验证到系统级闭环行为,逐层揭示了当前世界模型研究中被忽视的关键断层,并明确指出哪些结论是被实验真正支持的,哪些则仍停留在指标幻觉之中。


01
基于既有实验结果的系统性观察

如果将这篇论文视作一次严格意义上的实验研究,那么它的实验结果并不是某个模型在某个指标上的提升,而是一组关于整个自动驾驶世界模型研究方向有效性与局限性的实证性结论。这些结论来自对大量已有实验结果的系统重组,而非主观推断。


首先,在最基础的层面,论文通过对近年来生成式世界模型实验结果的系统梳理,确认了一个表面上乐观、但内在矛盾的事实:自动驾驶世界模型在视觉预测、场景生成等任务上的定量指标确实在持续进步,但这种进步并未线性转化为对驾驶安全或系统稳定性的可靠提升。

具体来说,图像与视频预测类实验显示,多数方法在诸如 FID、FVD 这类统计分布相似性指标上已经达到了相当成熟的水平。一些模型生成的未来帧在视觉质量上甚至难以与真实数据区分。这一实验现象在不同论文、不同数据集上反复出现,因此并非偶然。然而,当这些结果被进一步放置到时间序列维度进行审视时,问题开始显现。

实验结果显示,许多模型在短期预测窗口内表现稳定,但随着预测时间延长,场景结构、目标位置和运动轨迹逐渐偏离合理范围。这种偏离往往不会在传统生成指标中被显式惩罚,却在真实驾驶中对应着潜在的碰撞风险、规则违反或不可恢复的系统失效。

这一实验现象本身构成了论文的第一个关键结论:当前主流生成评测体系无法充分刻画自动驾驶所需的鲁棒性维度。


其次,当论文将分析重心转向点云与 Occupancy 表征相关实验结果时,出现了明显不同的趋势。基于三维或四维空间表征的世界模型,在多个实验设置中表现出更强的一致性和稳定性。


无论是在空间重建精度,还是在为规划模块提供状态输入时,这类方法在多项公开基准上都展现出相对更可靠的性能。这种优势并非来源于单一指标的极致优化,而是体现在多指标、多任务条件下的整体稳定性。


通过对比这些实验结果,论文实际上确认了第二个重要事实:鲁棒性更容易从结构化空间建模中涌现,而非从纯粹的感知级生成中涌现。


在规划相关实验中,论文进一步通过区分开环与闭环评测,揭示了世界模型能力评估中的一个长期混淆点。在开环规划实验中,即仅评估模型在给定历史条件下预测未来状态的能力时,多项实验结果显示,世界模型在轨迹预测质量、环境理解一致性等方面已经接近甚至匹配部分强端到端系统。这说明,从世界演化建模的角度看,世界模型已经具备相当程度的表达能力。


然而,当这些模型被嵌入闭环系统,在真实的决策链条中承担连续规划与控制职责时,它的能力边界便开始暴露。

系统不同于更为理想化的开环评测,它引入了反馈机制,模型的输出会直接影响环境状态,并作为新的输入重新回到系统之中,小幅的感知与预测偏差会在这种反馈中逐步累积与放大。

例如在 Bench2Drive 等闭环测评中,只有依赖专家信息的 Think2Drive 能够将综合驾驶得分提升至92分左右,而不使用专家信息的 Raw2Drive 得分仅为71分,多数使用世界模型方法的驾驶得分集中在40-60分之间,并伴随成功率与碰撞率的显著差异。

也正因如此,可以观察到一种稳定存在的能力断层:在开环指标上表现优秀的模型,并不必然在闭环仿真乃至真实系统中展现出同等水平的安全性与稳定性。

由此可见,开环和闭环系统并非简单的替代关系,而应被视作是互补的两个层级,即开环主要用于验证表示与预测的认知正确性,而闭环则用于检验长期交互中的行为稳健性。

或许未来的关键方向,不仅在于继续提升开环的预测精度,更在于能够构建一个能够有效衔接开环和闭环系统的训练体系,进而真正支撑系统及鲁棒性自动驾驶的实现。

由此,论文在实验层面确认了第三个关键结论:开环性能并不能可靠预测闭环系统的安全性与稳定性。


在更高层级的实验归纳中,论文还总结了一系列系统性证据,表明世界模型在某些条件下确实能够为自动驾驶系统带来实质性收益。这些证据并不集中于单一指标,而体现在可控生成、零样本泛化、跨任务迁移以及人类主观评估等多个实验维度上。

这些实验结果共同指向一个结论:当世界模型被用于增强系统整体能力,而非单一任务性能时,其价值才开始显现。


02
非传统实验范式的建立

理解这篇论文的实验过程,关键在于认识到它采用的并非传统意义上的“训练—测试”实验范式,而是一种跨研究工作的实验重构方法。作者并没有新增模型或数据,而是通过重新组织已有实验结果,构建了一套用于检验研究方向本身的实验逻辑。

在实验的第一阶段,作者关注的并不是模型能力,而是评测工具本身。他们系统梳理了自动驾驶世界模型领域常用的数据集、仿真平台与评价指标,并分析这些工具在多大程度上能够反映真实驾驶需求。通过对比不同论文的实验设置,作者发现:即使研究目标相似,不同工作之间的评测方式也往往高度异质。这种异质性使得实验结果难以直接比较,也使得“性能提升”这一结论本身变得不稳定。

这一阶段的实验分析实际上是在对整个领域的实验基础设施进行审视,其隐含问题是:如果评测方式本身存在系统性盲区,那么基于这些评测得出的结论是否可靠?

在第二阶段,作者将实验分析的重点从评测工具转向系统行为。他们不再试图回答“哪个模型更好”,而是试图回答“哪些实验结果在系统层面仍然成立”。为此,论文系统整理了涉及可控生成、零样本泛化和跨任务迁移的实验工作。这些实验往往难以严格控制变量,但正因如此,更接近真实工程环境。

通过比较这些实验结果,作者发现:某些在单一任务中并不占优的方法,在系统级实验中反而表现出更高的稳定性;而一些在生成指标上表现突出的模型,在系统集成后却难以维持性能。这种反差本身构成了一种实验发现,迫使研究者重新思考性能评估的目标。

至于第三阶段,论文并未给出完整实验结果,而是明确指出当前实验体系的缺失。这并非实验不足,而是作者基于前两阶段实验分析后得出的理性判断:在缺乏统一任务定义、可解释性评测和可信闭环仿真之前,任何关于“开放世界鲁棒性”的结论都缺乏实验支撑。


03
重新定义「值得被验证」的实验目标

从实验意义上看,这篇论文的价值并不在于它总结了多少工作,而在于它通过实验性分析改变了“什么值得被实验验证”的标准。

首先,它在实验层面否定了一种隐含但普遍存在的假设,即认为只要生成或预测性能不断提升,系统鲁棒性就会自然改善。通过对大量实验结果的系统分析,论文清楚地表明,这种假设在自动驾驶场景下并不成立。鲁棒性并不会自动从局部性能优化中涌现。

其次,这篇论文通过实验拆解,强调了系统级评测的重要性。它表明,真正有意义的实验不应只关注模型在孤立任务中的表现,而应关注模型在复杂系统中的行为。这一观点对研究范式具有直接约束力:它要求研究者在设计实验时,必须明确自己所验证的鲁棒性层级。

更深层的意义在于,这篇论文将自动驾驶世界模型的研究问题,从“模型是否足够强”转变为“实验是否足够真实”。这意味着,未来的关键突破不一定来自更复杂的网络结构,而可能来自更合理的实验设计与评测体系。

04
一支把鲁棒性「讲透」的团队

贾飞阳为本文第一作者,现为北京交通大学计算机科学与技术专业博士研究生,研究方向包括自动驾驶三维目标检测、端到端自动驾驶以及自动驾驶世界模型等。

贾彩燕为本文通讯作者之一,现任北京交通大学计算机与信息技术学院教授,并担任交通数据分析与挖掘北京市重点实验室副主任。其主要研究方向包括机器学习模型(尤其是图神经网络)、虚假信息检测、大模型生成内容检测与可信计算、推荐算法,以及自动驾驶场景下的多模态融合目标检测与大模型泛化研究等。

近年来已在国内外学术期刊和国际会议上发表论文80余篇,主持国家自然科学基金面上项目两项、国家自然科学基金青年基金项目一项,并主持国家重点研发计划“新一代人工智能”专项子课题一项。

论文地址:

https://doi.org/10.36227/techrxiv.176523308.84756413/v1

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

记住!老人离世第一步不是销户,先办这5件事,权益不流失少跑腿

阿芒娱乐说
2025-12-31 13:46:18
汽柴油“连跌0.26元/升”后,1月6日或迎2026年第一次油价上涨

汽柴油“连跌0.26元/升”后,1月6日或迎2026年第一次油价上涨

油价早知道
2026-01-01 00:18:19
钱学森晚年透露彭德怀一事:他之所以对这事这么着急,跟这有关系

钱学森晚年透露彭德怀一事:他之所以对这事这么着急,跟这有关系

妙知
2025-12-25 18:54:19
那个3岁识千字、6岁夺央视冠军山东神童王恒屹,如今怎样

那个3岁识千字、6岁夺央视冠军山东神童王恒屹,如今怎样

素衣读史
2025-12-08 16:04:03
菲律宾意料之外:当年想方设法让破船坐滩,结果为中国铺了路

菲律宾意料之外:当年想方设法让破船坐滩,结果为中国铺了路

普览
2026-01-02 22:51:26
一身“塑料”却保暖,为啥说聚酯纤维是人类最伟大的发明之一?

一身“塑料”却保暖,为啥说聚酯纤维是人类最伟大的发明之一?

向航说
2025-12-22 00:45:03
老公和嫂子没边界感,女子晒视频质疑,网友:这氛围太奇怪!

老公和嫂子没边界感,女子晒视频质疑,网友:这氛围太奇怪!

单手搓核弹
2025-12-29 10:34:01
中国海警发海报,要查扣美国军火?美驻华大使在北京顶风“作案”

中国海警发海报,要查扣美国军火?美驻华大使在北京顶风“作案”

时时有聊
2025-12-31 20:11:30
乌克兰情报换帅:外国情报负责人伊瓦什琴科或接掌军方主情报局

乌克兰情报换帅:外国情报负责人伊瓦什琴科或接掌军方主情报局

桂系007
2026-01-02 23:56:16
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

阿器谈史
2025-11-12 17:24:46
国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

本末倒置也
2026-01-02 23:23:44
湖南一女护士与4名男牌友打麻将,深夜,丈夫接她回家,经过一座桥时,女子突然跳桥溺亡

湖南一女护士与4名男牌友打麻将,深夜,丈夫接她回家,经过一座桥时,女子突然跳桥溺亡

上海约饭局
2025-11-07 10:18:45
身高近2米!27岁范志毅女婿首进国足,新赛季或回归申花+晋升主力

身高近2米!27岁范志毅女婿首进国足,新赛季或回归申花+晋升主力

篮球看比赛
2026-01-02 11:40:54
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
俞敏洪说:“我有两个大学男同学已经死了,都是家庭条件很好

俞敏洪说:“我有两个大学男同学已经死了,都是家庭条件很好

忠于法纪
2025-11-29 22:02:26
中央定调,房地产已经完全明牌了!

中央定调,房地产已经完全明牌了!

山丘楼评
2025-11-12 18:29:13
希勒:加布里埃尔在攻防两端都有意识和技术,实在是不可思议

希勒:加布里埃尔在攻防两端都有意识和技术,实在是不可思议

懂球帝
2026-01-02 23:57:09
安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

LULU生活家
2025-11-06 18:29:11
1933年,陈赓在上海被捕,蒋介石问秘书:邓先生,应该如何处置他

1933年,陈赓在上海被捕,蒋介石问秘书:邓先生,应该如何处置他

云霄纪史观
2026-01-03 02:32:09
饶颖:赵忠祥与我发生关系多年!他有特殊癖好,让我身心受到伤害

饶颖:赵忠祥与我发生关系多年!他有特殊癖好,让我身心受到伤害

蕾爸退休日记
2025-12-10 18:56:14
2026-01-03 03:55:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7029文章数 20719关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

体育要闻

快船似乎又行了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

车企2026开年大促 含16个品牌近70款

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

健康
艺术
旅游
游戏
军事航空

元旦举家出行,注意防流感

艺术要闻

惊艳!她的优雅之美让人叹为观止!

旅游要闻

元旦夜的洛阳:千年宫阙下的汉服潮,藏着古都文旅的破圈密码!

玩家流失95%!《师父》开发商新作状况不佳

军事要闻

跨年夜乌军袭击"俄控区"平民 已致27死

无障碍浏览 进入关怀版