网易首页 > 网易号 > 正文 申请入驻

马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验!擎天柱同脑进化

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】马斯克的终极设想,正在成形。今天,特斯拉放出了「世界模拟器」震撼演示。一个神经网络,每天狂吞500年人类驾驶经验,并在无限的虚拟世界中自我进化。同款AI大脑,擎天柱也可共用。

一个神经网络模型,统治了一切。

今天,特斯拉官宣神经网络「世界模型器」,AI可以直接模拟、合成自动驾驶的「孪生世界」。


如下九宫格演示中,特斯拉「世界模拟器」生成了汽车行驶过程中的不同视角。


同时,一些长尾场景,诸如行人横穿马路、车辆加塞,AI都可以直接「脑补」生成。


从相同的初始视频出发,让模拟中的汽车以对抗性方式形式

以往遇到的挑战场景,「世界模拟器」能够在虚拟世界中不断试炼。


从相同的初始视频片段(绿色小方块)开始,模拟会根据新的动作集发散到不同状态

这种数据的合成,还可以通过像玩游戏一样,在模拟的世界中驾驶。

如下所示,神经网络成功合成8个摄像头、24帧/秒的连续画面,一次直出长达6分钟的逼真驾驶体验,细节还原度惊人。

通过调配算力,同一模型即可实时模拟世界

一直以来,马斯克宣称,特斯拉所打造「世界模型」是一套共用的AI大脑,并为其配上不同的「身体」——自动驾驶汽车、机器人。

没错,这个「世界模拟器」所有合成的环境,同样可以模拟多种真实场景,训练擎天柱。



擎天柱正在特斯拉的神经网络虚拟世界中穿行


擎天柱的各种不同动作,都能精准地反映在虚拟世界的模拟当中

这种无限的绝佳试炼场,正是特斯拉让FSD和擎天柱,不断精进的秘密武器。



那么,特斯拉「世界模拟器」是如何学习、训练,并用于测试的呢?

近来,在ICCV 2025主题演讲中,特斯拉AI团队的负责人Ashok Elluswamy揭开了内幕。

一个神经网络大脑,两个身体

众所周知,特斯拉利用一个「端到端」的神经网络来实现自动驾驶。

这个端到端网络处理来自多个摄像头、车辆速度等运动学信号、音频、地图及导航信息,最终生成控制车辆行驶的指令。


选择「端到端」这条技术路线,意味着什么?

要理解特斯拉在做什么,我们首先得知道,自动驾驶领域存在着两条截然不同的技术路线。

第一条路,也是绝大多数公司选择的路,可以称之为「模块化」的方法。这种方法将驾驶任务拆解成几个独立的步骤:

  • 感知(Perception):利用激光雷达、高清摄像头等传感器,识别出道路上的所有物体——这是车,那是人,这是一条车道线。

  • 预测(Prediction):利用感知数据,预测这些物体的下一步动向——那辆车可能会变道,那个行人可能会过马路。

  • 规划(Planning):根据预测结果,规划出自己车辆的最佳行驶路径——应该减速,还是应该绕行。

这种方式的好处显而易见:分工明确,每个模块都可以独立开发和调试,在项目初期更容易上手。


第二条路,也是特斯拉所选择的:「端到端」(End-to-End)神经网络

在特斯拉的系统中,不存在独立的感知、预测和规划模块,只有一个庞大而统一的神经网络。

这个网络的「输入端」,是车辆摄像头捕捉到的原始像素画面、车辆自身的速度、音频、地图导航信息等一切原始数据;

这也是特斯拉一直以来,所推崇的「纯视觉」方案。

而它的「输出端」,则直接是两个指令:转动方向盘的角度,和踩下油门/刹车的力度。


在特斯拉看来,与依赖激光雷达等昂贵传感器的「模块化」(感知、预测、规划分立)方案相比,端到端方案拥有根本性优势:

1.学习人类价值观

复杂的现实路况充满了「迷你电车难题」,这些权衡难以用代码规则穷举,但可以从海量的人类驾驶数据中隐式学习。


举个栗子,在下面的场景中,AI需要决定是直接碾过前方一大片水洼,还是借道对向车道。

通常来说,突然驶入另一侧车道会存在一定的危险。

传统的「模块化」系统会在这里陷入逻辑冲突。

它的程序里可能有两条写死的规则:「规则A:绝对不能驶入对向车道」和「规则B:避免驶过障碍物(如此大的水坑)」。

当两条规则冲突时,系统该如何抉择?

但眼下能见度足够高,在可预见的未来未来不会有对向车辆驶来;其次,水坑比较大,最好是避开。

而这种权衡,很难用传统编程逻辑描述出来,但人看一眼就知道该怎么做了。


这只是经典「迷你电车难题」其中一个案例,现实中,自动驾驶汽车还会遇到各种罕见的问题。

AI不是在执行规则,而是在学习一种更接近人类价值观的判断方式。

2.消除模块间的信息损失

在传统方案中,感知、预测和规划模块之间的接口难以明确界定。

而在端到端系统中,梯度能够从最终的控制指令一直反向传播至传感器输入,从而对整个网络进行整体性优化。

如下两段路况:一个是鸡群要过马路,另一个是鹅群在路中间溜达。

若在「感知」和「规划」这两个模块之间,建立一套明确的判断规则(本体论ontology)非常困难。

对于模块化系统,「感知」模块可能会给「规划」模块传递这样的信息:「识别到一群鸟类」。

但这种信息是冰冷的。

这群鸟的「意图」——一种微妙、难以量化的信息——在模块之间的传递过程中很容易丢失。

「规划」模块无法知道,它应该为这群鸡减速让行,还是可以安全地绕过这群鹅。


一群鸡正在路边,看起来有要过马路的意图;FSD停车等待


一群鹅在路边,但它们只是想待在原地;FSD直接绕行

在「端到端」的网络里,不存在这种信息传递的壁垒。

整个网络作为一个整体,直接从像素中理解了「鸡要过马路」和「鹅想待着」这两种不同的「软意图」(soft intent),并直接输出减速或绕行的驾驶行为。

从输入到输出,信息是完整流动的,不存在中间环节的损耗。

正是基于这些原因,特斯拉选择了「端到端」这条路。当然,也伴随着巨大的挑战。

3.可扩展性与简洁性

它能更好地处理现实世界中无穷无尽的「长尾问题」,并且计算架构统一,延迟确定。

4.Scaling Law的延续

总体而言,这更符合「苦涩的教训」(The Bitter Lesson)所揭示的规律——即强大的通用方法和海量算力,最终将超越复杂的人工设计。

正是因为上面这些原因,以及其更多其他的考量,特斯拉才选择了「端到端」架构来做自动驾驶。

不过话说回来,要打造这样的系统,还得克服不少难题。

20亿token输入,跳出「维度诅咒」

在真实世界中,一个安全的自动驾驶系统,需要处理高帧率、高分辨率、长时间序列的输入信息。

特斯拉算了一笔账:

  • 7个摄像头×36帧/秒×500万像素×30秒历史数据

  • 未来几英里的导航地图和路线

  • 100 Hz车辆动态数据,如速度、惯性测量单元(IMU)、里程计等

  • 48 KHz音频数据

如果将这些输入token拆分成最小的「信息单元」,比如每个图像块是5x5像素,token总数将高达20亿个

神经网络的任务,就是在这20亿个输入信息单元中,找到正确的因果关系,并最终将其压缩成2个token——方向盘和加减速。

这是一个极其棘手的问题,AI很容易在如此海量的数据中,学到错误的、偶然的「相关性」,而非真正的「因果性」。

特斯拉的解法简单粗暴:用巨大的数据量来解决问题。

他们坐拥一个数据宝库,其车队每天能产生相当于人类500年驾驶时长的海量数据。

负责人Ashok Elluswamy将其称之为,「Niagara Falls of data」。当然,并非所有数据都有用。

因此,特斯拉建立了一套复杂的「数据引擎」流水线,从海量视频中自动筛选出最有趣、最罕见、最高质量的学习样本。

当AI学习了足够多这样的「疑难杂症」数据后,它就能展现出惊人的泛化能力。

比如在一个雨天路滑的场景中,AI在前方车辆还未明显失控时,就提前开始减速。

它理解到:下雨、前车可能打滑、撞上护栏后可能反弹回车道……这种对「二阶效应」的预判,只有在见过足够多复杂情况后才能学会。

FSD思维过程揭开,全凭摄像头

「端到端」系统最大的诟病在于——「黑箱」特性。

如果车辆做出了一个奇怪的举动,工程师如何知道是哪里出了问题?

Ashok认为,这个「黑箱」其实可以被打开。

特斯拉神经网络在输出最终驾驶指令的同时,也能输出可供人类理解的「中间token」(Intermediate Tokens)。

这些token可以被看作是AI的「思考过程」,也是人们常说的CoT。


完整架构与可解释性输出

其中一项最直观的技术,叫做「生成式高斯泼溅」(Generative Gaussian Splatting)。

车辆在行驶过程中,轨迹通常是线性的,导致视角变化不足,用传统方法重建3D模型质量不高。

尤其是,在新视角下更容易失真。

此外,3D高斯泼溅还需要以来,其他pipeline良好的初始化,整体优化时间可能长达数分钟。

另一方面,它还具备了出色的泛化能力。

无需初始化,全程运行时间仅约220毫秒,能够对动态物体进行建模,还能和端到端大模型联合训练。

最厉害的是,所有这些高斯点,都基于车上配置的摄像头生成。


特斯拉神经网络生成的高斯泼溅渲染的新视角

由摄像头视频(上),生成的特斯拉生成式高斯模型(下)

此外,AI还能用自然语言解释它的决策。这套系统已经在FSD v14.x版本中部分运行。


自然语言推理

世界模拟器,AI无限试错

最后一个,也是最难的挑战是——评估。

一个训好的自动驾驶系统,若在真实道路上测试,既危险又缓慢。

即使AI在历史数据上表现完美,也不意味着它能在真实世界中应对自如。

为此,特斯拉亮出了终极武器:一个完全由神经网络构成的「世界模拟器」


这个模拟器和驾驶AI一样,也是用海量真实世界数据训练出来的。

但它的功能不同:它不是根据当前状态预测「下一步该怎么开」,而是根据「当前状态」和「一个驾驶动作」,来生成「下一秒世界会变成什么样」。

这个模拟器能以极高的保真度,实时生成车辆所有摄像头应该看到的画面。它就像一个由AI创造的、无限逼真的驾驶视频游戏。

如前所述,这个「世界模拟器」的威力在于:

  • 闭环评估:可以将新的驾驶AI模型放入这个模拟世界中,让它自由驾驶,评估其长期表现。

  • 情景再现与修改:可以截取一段真实发生的危险场景,让AI在这个模拟世界里用不同的方式重新应对一次,看看结果是否会更好。

  • 创造对抗性场景:可以人为地在模拟世界中创造出极端、罕见的危险情况,比如让一辆车突然做出不合常理的举动),专门测试AI的应对极限。


真正的终局:人形机器人

讲到这里,你会发现,特斯拉的野心早已超越了「造车」。

汽车,只是他们收集数据的触手,和这套AI系统的第一个应用载体。他们真正打造的,是一套可以解决通用物理世界交互问题的底层AI引擎。


最好的证据是,这套系统已经无缝迁移到了他们的另一个人形机器人项目——擎天柱(Optimus)上。

为FSD打造的「世界模拟器」,同样可以为擎天柱生成在工厂里漫步的场景,测试和训练它在物理世界中的导航与交互能力。


而这,才是特斯拉自动驾驶故事背后,那个更宏大、也更激动人心的未来。

参考资料:

https://x.com/aelluswamy/status/1981644831790379245

https://www.youtube.com/watch?v=wHK8GMc9O5A

https://x.com/Tesla/status/1982255564974641628

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员倪妮发律师声明,否认“有后台”等传闻,表示将通过法律维权

演员倪妮发律师声明,否认“有后台”等传闻,表示将通过法律维权

极目新闻
2025-11-01 12:11:28
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
“舅舅照顾3个外甥近10年”引关注,舅舅回应:20岁开始照顾,那时刚中专毕业

“舅舅照顾3个外甥近10年”引关注,舅舅回应:20岁开始照顾,那时刚中专毕业

红星新闻
2025-11-01 22:30:18
荷兰再出昏招,想用晶圆卡脖子,反而为中企送来订单

荷兰再出昏招,想用晶圆卡脖子,反而为中企送来订单

粤语音乐喷泉
2025-11-01 03:25:57
1-0,英超第9掀翻英超第3,佩德罗一剑封喉,切尔西逼近前二

1-0,英超第9掀翻英超第3,佩德罗一剑封喉,切尔西逼近前二

侧身凌空斩
2025-11-02 03:32:28
退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

罪案洞察者
2025-09-23 14:37:35
官媒发文,高调官宣49岁马伊琍喜讯,全网恭喜,终于等到这一天

官媒发文,高调官宣49岁马伊琍喜讯,全网恭喜,终于等到这一天

喜欢历史的阿繁
2025-11-01 10:43:34
中国环境报:种植营养土竟然是工业毒废土,是谁拿着资质坑国家补贴?

中国环境报:种植营养土竟然是工业毒废土,是谁拿着资质坑国家补贴?

澎湃新闻
2025-10-31 17:05:11
巴基斯坦“罕见公开”!

巴基斯坦“罕见公开”!

环球时报新闻
2025-11-01 09:12:16
曾经的中产标配,如今暴跌66%,又土又贵的女装,成了时代的弃儿

曾经的中产标配,如今暴跌66%,又土又贵的女装,成了时代的弃儿

青眼财经
2025-10-28 10:34:29
170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

健身迷
2025-09-20 09:22:20
国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

体育吐槽
2025-11-01 23:54:25
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
风向彻底变了?外媒已经开始承认,中国在多个科技领域实现领先

风向彻底变了?外媒已经开始承认,中国在多个科技领域实现领先

大卫聊科技
2025-10-31 14:35:13
官宣,乒乓奥运冠军被调查,涉嫌受贿,弟弟波及,单笔涉及7位数

官宣,乒乓奥运冠军被调查,涉嫌受贿,弟弟波及,单笔涉及7位数

乐聊球
2025-10-30 10:06:06
3-2,3-0!法国冠军赛,王艺迪逆转过关,国乒劲敌大胜晋级

3-2,3-0!法国冠军赛,王艺迪逆转过关,国乒劲敌大胜晋级

小哆说体育
2025-11-01 22:07:28
日本穆斯林人数十年翻倍,日本女性嫁穆斯林而改宗

日本穆斯林人数十年翻倍,日本女性嫁穆斯林而改宗

桂系007
2025-09-02 10:12:24
宁夏退伍士兵将岳父全家7口人全部割喉,妻子肚里的孩子都没放过

宁夏退伍士兵将岳父全家7口人全部割喉,妻子肚里的孩子都没放过

热风追逐者
2025-09-24 23:41:51
有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

娱圈小愚
2025-11-01 13:16:20
台湾回归还有一种新方案,国民党若同意,解放军或无需动武

台湾回归还有一种新方案,国民党若同意,解放军或无需动武

瞻史
2025-10-31 02:20:52
2025-11-02 05:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

家居
亲子
手机
公开课
军事航空

家居要闻

吸睛艺术 富有传奇色彩

亲子要闻

子宫写真火遍法国!不去医院就可看性别,还能给胎儿“打印”一张脸

手机要闻

疑似OPPO Find X10被曝光:2亿潜望镜确认加持,其他厂商怎么玩?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卡塔尔:加沙可能陷入“无战无和”局面

无障碍浏览 进入关怀版