网易首页 > 网易号 > 正文 申请入驻

马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验!擎天柱同脑进化

0
分享至

新智元报道

编辑:桃子 好困

【新智元导读】马斯克的终极设想,正在成形。今天,特斯拉放出了「世界模拟器」震撼演示。一个神经网络,每天狂吞500年人类驾驶经验,并在无限的虚拟世界中自我进化。同款AI大脑,擎天柱也可共用。

一个神经网络模型,统治了一切。

今天,特斯拉官宣神经网络「世界模型器」,AI可以直接模拟、合成自动驾驶的「孪生世界」。

如下九宫格演示中,特斯拉「世界模拟器」生成了汽车行驶过程中的不同视角。

同时,一些长尾场景,诸如行人横穿马路、车辆加塞,AI都可以直接「脑补」生成。

从相同的初始视频出发,让模拟中的汽车以对抗性方式形式

以往遇到的挑战场景,「世界模拟器」能够在虚拟世界中不断试炼。

从相同的初始视频片段(绿色小方块)开始,模拟会根据新的动作集发散到不同状态

这种数据的合成,还可以通过像玩游戏一样,在模拟的世界中驾驶。

如下所示,神经网络成功合成8个摄像头、24帧/秒的连续画面,一次直出长达6分钟的逼真驾驶体验,细节还原度惊人。

通过调配算力,同一模型即可实时模拟世界

一直以来,马斯克宣称,特斯拉所打造「世界模型」是一套共用的AI大脑,并为其配上不同的「身体」——自动驾驶汽车、机器人。

没错,这个「世界模拟器」所有合成的环境,同样可以模拟多种真实场景,训练擎天柱。

擎天柱正在特斯拉的神经网络虚拟世界中穿行

擎天柱的各种不同动作,都能精准地反映在虚拟世界的模拟当中

这种无限的绝佳试炼场,正是特斯拉让FSD和擎天柱,不断精进的秘密武器。

那么,特斯拉「世界模拟器」是如何学习、训练,并用于测试的呢?

近来,在ICCV 2025主题演讲中,特斯拉AI团队的负责人Ashok Elluswamy揭开了内幕。

一个神经网络大脑,两个身体

众所周知,特斯拉利用一个「端到端」的神经网络来实现自动驾驶。

这个端到端网络处理来自多个摄像头、车辆速度等运动学信号、音频、地图及导航信息,最终生成控制车辆行驶的指令。

选择「端到端」这条技术路线,意味着什么?

要理解特斯拉在做什么,我们首先得知道,自动驾驶领域存在着两条截然不同的技术路线。

第一条路,也是绝大多数公司选择的路,可以称之为「模块化」的方法。这种方法将驾驶任务拆解成几个独立的步骤:

  • 感知(Perception):利用激光雷达、高清摄像头等传感器,识别出道路上的所有物体——这是车,那是人,这是一条车道线。

  • 预测(Prediction):利用感知数据,预测这些物体的下一步动向——那辆车可能会变道,那个行人可能会过马路。

  • 规划(Planning):根据预测结果,规划出自己车辆的最佳行驶路径——应该减速,还是应该绕行。

这种方式的好处显而易见:分工明确,每个模块都可以独立开发和调试,在项目初期更容易上手。

第二条路,也是特斯拉所选择的:「端到端」(End-to-End)神经网络

在特斯拉的系统中,不存在独立的感知、预测和规划模块,只有一个庞大而统一的神经网络。

这个网络的「输入端」,是车辆摄像头捕捉到的原始像素画面、车辆自身的速度、音频、地图导航信息等一切原始数据;

这也是特斯拉一直以来,所推崇的「纯视觉」方案。

而它的「输出端」,则直接是两个指令:转动方向盘的角度,和踩下油门/刹车的力度。

在特斯拉看来,与依赖激光雷达等昂贵传感器的「模块化」(感知、预测、规划分立)方案相比,端到端方案拥有根本性优势:

1.学习人类价值观

复杂的现实路况充满了「迷你电车难题」,这些权衡难以用代码规则穷举,但可以从海量的人类驾驶数据中隐式学习。

举个栗子,在下面的场景中,AI需要决定是直接碾过前方一大片水洼,还是借道对向车道。

通常来说,突然驶入另一侧车道会存在一定的危险。

传统的「模块化」系统会在这里陷入逻辑冲突。

它的程序里可能有两条写死的规则:「规则A:绝对不能驶入对向车道」和「规则B:避免驶过障碍物(如此大的水坑)」。

当两条规则冲突时,系统该如何抉择?

但眼下能见度足够高,在可预见的未来未来不会有对向车辆驶来;其次,水坑比较大,最好是避开。

而这种权衡,很难用传统编程逻辑描述出来,但人看一眼就知道该怎么做了。

这只是经典「迷你电车难题」其中一个案例,现实中,自动驾驶汽车还会遇到各种罕见的问题。

AI不是在执行规则,而是在学习一种更接近人类价值观的判断方式。

2.消除模块间的信息损失

在传统方案中,感知、预测和规划模块之间的接口难以明确界定。

而在端到端系统中,梯度能够从最终的控制指令一直反向传播至传感器输入,从而对整个网络进行整体性优化。

如下两段路况:一个是鸡群要过马路,另一个是鹅群在路中间溜达。

若在「感知」和「规划」这两个模块之间,建立一套明确的判断规则(本体论ontology)非常困难。

对于模块化系统,「感知」模块可能会给「规划」模块传递这样的信息:「识别到一群鸟类」。

但这种信息是冰冷的。

这群鸟的「意图」——一种微妙、难以量化的信息——在模块之间的传递过程中很容易丢失。

「规划」模块无法知道,它应该为这群鸡减速让行,还是可以安全地绕过这群鹅。

一群鸡正在路边,看起来有要过马路的意图;FSD停车等待

一群鹅在路边,但它们只是想待在原地;FSD直接绕行

在「端到端」的网络里,不存在这种信息传递的壁垒。

整个网络作为一个整体,直接从像素中理解了「鸡要过马路」和「鹅想待着」这两种不同的「软意图」(soft intent),并直接输出减速或绕行的驾驶行为。

从输入到输出,信息是完整流动的,不存在中间环节的损耗。

正是基于这些原因,特斯拉选择了「端到端」这条路。当然,也伴随着巨大的挑战。

3.可扩展性与简洁性

它能更好地处理现实世界中无穷无尽的「长尾问题」,并且计算架构统一,延迟确定。

4.Scaling Law的延续

总体而言,这更符合「苦涩的教训」(The Bitter Lesson)所揭示的规律——即强大的通用方法和海量算力,最终将超越复杂的人工设计。

正是因为上面这些原因,以及其更多其他的考量,特斯拉才选择了「端到端」架构来做自动驾驶。

不过话说回来,要打造这样的系统,还得克服不少难题。

20亿token输入,跳出「维度诅咒」

在真实世界中,一个安全的自动驾驶系统,需要处理高帧率、高分辨率、长时间序列的输入信息。

特斯拉算了一笔账:

  • 7个摄像头×36帧/秒×500万像素×30秒历史数据

  • 未来几英里的导航地图和路线

  • 100 Hz车辆动态数据,如速度、惯性测量单元(IMU)、里程计等

  • 48 KHz音频数据

如果将这些输入token拆分成最小的「信息单元」,比如每个图像块是5x5像素,token总数将高达20亿个

神经网络的任务,就是在这20亿个输入信息单元中,找到正确的因果关系,并最终将其压缩成2个token——方向盘和加减速。

这是一个极其棘手的问题,AI很容易在如此海量的数据中,学到错误的、偶然的「相关性」,而非真正的「因果性」。

特斯拉的解法简单粗暴:用巨大的数据量来解决问题。

他们坐拥一个数据宝库,其车队每天能产生相当于人类500年驾驶时长的海量数据。

负责人Ashok Elluswamy将其称之为,「Niagara Falls of data」。当然,并非所有数据都有用。

因此,特斯拉建立了一套复杂的「数据引擎」流水线,从海量视频中自动筛选出最有趣、最罕见、最高质量的学习样本。

当AI学习了足够多这样的「疑难杂症」数据后,它就能展现出惊人的泛化能力。

比如在一个雨天路滑的场景中,AI在前方车辆还未明显失控时,就提前开始减速。

它理解到:下雨、前车可能打滑、撞上护栏后可能反弹回车道……这种对「二阶效应」的预判,只有在见过足够多复杂情况后才能学会。

FSD思维过程揭开,全凭摄像头

「端到端」系统最大的诟病在于——「黑箱」特性。

如果车辆做出了一个奇怪的举动,工程师如何知道是哪里出了问题?

Ashok认为,这个「黑箱」其实可以被打开。

特斯拉神经网络在输出最终驾驶指令的同时,也能输出可供人类理解的「中间token」(Intermediate Tokens)。

这些token可以被看作是AI的「思考过程」,也是人们常说的CoT。

完整架构与可解释性输出

其中一项最直观的技术,叫做「生成式高斯泼溅」(Generative Gaussian Splatting)。

车辆在行驶过程中,轨迹通常是线性的,导致视角变化不足,用传统方法重建3D模型质量不高。

尤其是,在新视角下更容易失真。

此外,3D高斯泼溅还需要以来,其他pipeline良好的初始化,整体优化时间可能长达数分钟。

另一方面,它还具备了出色的泛化能力。

无需初始化,全程运行时间仅约220毫秒,能够对动态物体进行建模,还能和端到端大模型联合训练。

最厉害的是,所有这些高斯点,都基于车上配置的摄像头生成。

特斯拉神经网络生成的高斯泼溅渲染的新视角

由摄像头视频(上),生成的特斯拉生成式高斯模型(下)

此外,AI还能用自然语言解释它的决策。这套系统已经在FSD v14.x版本中部分运行。

自然语言推理

世界模拟器,AI无限试错

最后一个,也是最难的挑战是——评估。

一个训好的自动驾驶系统,若在真实道路上测试,既危险又缓慢。

即使AI在历史数据上表现完美,也不意味着它能在真实世界中应对自如。

为此,特斯拉亮出了终极武器:一个完全由神经网络构成的「世界模拟器」

这个模拟器和驾驶AI一样,也是用海量真实世界数据训练出来的。

但它的功能不同:它不是根据当前状态预测「下一步该怎么开」,而是根据「当前状态」和「一个驾驶动作」,来生成「下一秒世界会变成什么样」。

这个模拟器能以极高的保真度,实时生成车辆所有摄像头应该看到的画面。它就像一个由AI创造的、无限逼真的驾驶视频游戏。

如前所述,这个「世界模拟器」的威力在于:

  • 闭环评估:可以将新的驾驶AI模型放入这个模拟世界中,让它自由驾驶,评估其长期表现。

  • 情景再现与修改:可以截取一段真实发生的危险场景,让AI在这个模拟世界里用不同的方式重新应对一次,看看结果是否会更好。

  • 创造对抗性场景:可以人为地在模拟世界中创造出极端、罕见的危险情况,比如让一辆车突然做出不合常理的举动),专门测试AI的应对极限。


真正的终局:人形机器人

讲到这里,你会发现,特斯拉的野心早已超越了「造车」。

汽车,只是他们收集数据的触手,和这套AI系统的第一个应用载体。他们真正打造的,是一套可以解决通用物理世界交互问题的底层AI引擎。

最好的证据是,这套系统已经无缝迁移到了他们的另一个人形机器人项目——擎天柱(Optimus)上。

为FSD打造的「世界模拟器」,同样可以为擎天柱生成在工厂里漫步的场景,测试和训练它在物理世界中的导航与交互能力。

而这,才是特斯拉自动驾驶故事背后,那个更宏大、也更激动人心的未来。

参考资料:

https://x.com/aelluswamy/status/1981644831790379245

https://www.youtube.com/watch?v=wHK8GMc9O5A

https://x.com/Tesla/status/1982255564974641628

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CCTV5直播巴萨vs皇马:巴萨不败就夺冠 皇马内讧难阻死敌卫冕

CCTV5直播巴萨vs皇马:巴萨不败就夺冠 皇马内讧难阻死敌卫冕

智道足球
2026-05-10 10:50:48
7分5板2助!又一个塔克诞生,哈登说得对,阿特金森该让他首发了

7分5板2助!又一个塔克诞生,哈登说得对,阿特金森该让他首发了

画夕
2026-05-10 20:52:11
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

阿莱美食汇
2026-05-10 19:59:18
男人过了60岁,永远不要在女人面前,说这5句话

男人过了60岁,永远不要在女人面前,说这5句话

风起见你
2026-05-11 01:01:37
贺希宁:重回四强来之不易,三年前被浙江绝杀成就了今天的我们

贺希宁:重回四强来之不易,三年前被浙江绝杀成就了今天的我们

懂球帝
2026-05-10 23:29:40
消失的美嘉生私生子了

消失的美嘉生私生子了

毒舌扒姨太
2026-05-10 22:36:37
马云:王中军是我见过中国最懒的CEO

马云:王中军是我见过中国最懒的CEO

时事娱闻杂记
2026-05-09 19:45:15
有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

木言观
2026-05-04 07:08:52
巴尔韦德:“他们在荒谬的情况下进球了”

巴尔韦德:“他们在荒谬的情况下进球了”

绿茵情报局
2026-05-11 01:22:37
阿尔特塔确认本·怀特伤退:情况不乐观

阿尔特塔确认本·怀特伤退:情况不乐观

绿茵狂热者
2026-05-11 04:01:33
斯洛特下课倒计时?罗马诺最新爆料,利物浦锁定传奇主帅

斯洛特下课倒计时?罗马诺最新爆料,利物浦锁定传奇主帅

澜归序
2026-05-11 03:02:04
乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

项鹏飞
2026-05-08 19:30:06
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

190元白嫖榴莲被刑拘后,女子再迎三大噩耗,恐将变刑事审判

北纬的咖啡豆
2026-05-10 09:37:00
一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

医学原创故事会
2026-05-01 23:20:56
云南一交管大队队长被举报在KTV违规饮酒与女子举止亲密,本人称喝的茶水,女子突然靠近我下意识推了她;官方:初步调查举报不实

云南一交管大队队长被举报在KTV违规饮酒与女子举止亲密,本人称喝的茶水,女子突然靠近我下意识推了她;官方:初步调查举报不实

大象新闻
2026-05-10 08:42:28
两分半钟全部售完!广州楼市“日光盘”出现

两分半钟全部售完!广州楼市“日光盘”出现

爱看剧的阿峰
2026-05-10 13:46:54
撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

青梅侃史啊
2026-05-10 07:41:59
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

青青会讲故事
2025-10-23 16:45:08
2026-05-11 04:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
艺术
旅游
数码
军事航空

教育要闻

高考地理中的共享经济

艺术要闻

这些美人体摄影,简直美得让人窒息!

旅游要闻

北京“二绿地区”郊野公园焕新升级

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版