网易首页 > 网易号 > 正文 申请入驻

理想发布MindVLA-o1:一个模型,如何真正理解3D世界?

0
分享至



文/熊逾格

编辑/子夜

3月17日,NVIDIA GTC 2026大会,理想汽车基座模型负责人詹锟发表演讲,发布了下一代自动驾驶基础模型MindVLA-o1。

18日,理想汽车董事长兼CEO李想在B站发布了其与基座模型负责人詹锟的对话,对MindVLA-o1进行了进一步的解读。

这是一个将视觉、语言与行动统一进同一架构的原生多模态模型,采用多模态MoE Transformer架构,融合3D视觉编码、世界模型与推理能力。

理想给出MindVLA-o1的能力:让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

作为一个VLA(Vision-Language-Action Model)模型,MindVLA-o1带来的想象空间格外大。

“当视觉、语言和行动统一到一个模型中时,它不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。”詹锟在GTC上总结。

聚光灯下,理想朝着具身智能企业又迈进了一步。

1、感知、思考与行为,通往物理AI的三把钥匙

要理解MindVLA-o1,需要先理解当下自动驾驶主流技术的问题。

最初,智驾技术的逻辑相当“朴素”。工程师给驾驶系统写清楚规则,遇到不同的路况执行不同规则,再配上一张把每条路都画清楚的高精地图——但规则无穷无尽,永远会有下一个“例外”。

2021年前后,自动驾驶行业第一场技术转型开始:工程师直接把大量人类驾驶数据喂给模型,让模型自己学习。端到端模型输入视觉信号,输出实际操作,直接学习人类驾驶行为。

这恰好也符合行业的直觉,越多的驾驶数据,效果越好,数据价值得到强调。

正是从这一年,理想开始自研辅助驾驶,并在2024年转向端到端模型,但这条路走到2025年,理想发现,当训练数据到达更大规模,天花板逐渐浮现。

理想透露,当训练数据积累到1000万条Clips之后,公司研发团队等了5个月,模型平均接管里程只增长了2倍左右,远低于预期。

李想曾对端到端模型打了个不客气的比喻:“猴子开车”——端到端的本质是模仿学习,模型能学会开车的动作,但永远不理解物理世界。

没有因果推理,模型无法理解违反常理的行为;没有深度思考,只凭模式匹配无法进行复杂决策;安全意识不足,遇到复杂场景无法进行预防性判断。

“今天无论是具身的AI在工作,在训练,都是看着2D视频。但这并不是人类在物理世界真正的工作方式。”李想解释,“大部分搞模型的,都想直接做成年以后要做的事,拼命训练。但0-6岁孩子最重要的训练空间、训练能力,根本没解决。”

人类在童年建立起对世界认知,在三维空间跌倒再爬起,通过真实的感知和反馈,校准对距离和速度的判断。而AI跳过了这个阶段,无论如何学不会理解“开车”。

这是VLA出现的背景。感知、思考与行为,从架构设计之初,三种模态就被放入同一表示空间中进行统一训练。

2025年8月,理想随理想i8交付推出全球首个量产上车的VLA司机大模型。而MindVLA-o1是在其基础上的最新成果。



MindVLA-o1核心设计 ,图源GTC演讲

这一次更新,整个架构基于MoE(混合专家架构),在扩大模型容量的同时控制激活参数规模,被重新设计为三层:

首先是感知层。

理想设计了自监督的3D ViT(3D Vision Transformer,三维视觉转换器)视觉编码器。训练时同时引入视觉与LiDAR(激光探测与测距)两路数据——前者提供丰富的语义信息,后者提供准确的三维几何结构,让模型在同一表示空间中同时学习几何与语义。



自监督3D视觉编码器架构,图源GTC演讲

为进一步提升场景理解能力,训练中还引入了前馈式3DGS(3D Gaussian Splatting,三维高斯泼溅)场景表示:系统将场景分解为静态环境与动态物体分别建模,以“下一状态预测”作为自监督信号,驱动模型同时学习深度信息、语义结构与物体运动。

最终得到的3D ViT表示融合了空间结构与时间上下文信息,为后续的思考与行动层提供高质量的三维世界表示。

针对3D感知,训练数据配比也完成重构,大量融入3D数据和自动驾驶图文数据,主动压缩文史类数据比例,并加入未来帧预测生成和稠密深度预测任务,专门激发模型对3D空间的理解与推理能力。

其次是思考层。

思考层由三个相互配合的机制构成:显式推理、未来预测和快慢思考协同。

语言模型引入了 System-2式(慢思考系统)的显式推理机制——区别于直觉式的快速反应,模型能在复杂场景中进行更深入的分析与决策。

在此基础上,模型还内嵌了Predictive Latent World Model(预测式隐世界模型),让自动驾驶不只理解“当前发生了什么”,还能模拟“接下来会发生什么”。

由于直接生成未来图像的计算成本过高,理想选择在Latent Space(隐空间)中完成预测:系统首先将当前视觉输入编码为一组Latent Tokens(隐变量令牌),作为场景的紧凑表示,再由世界模型基于这些令牌推演未来状态。



预测式隐世界模型架构,图源GTC演讲

这套世界模型经历了三阶段训练:第一阶段用海量视频打底,让模型学会在隐空间里表征未来;第二阶段在MindVLA-o1框架内强化未来推演能力;第三阶段则将世界模型、多模态推理与驾驶行为三者拉到同一目标下联合优化。

快慢思考机制也被整合进同一模型:简单场景下,模型直接输出Action Token(动作令牌),不走推理链;复杂场景下,先经过一段固定简短的CoT(思维链)模板,再输出动作。

在效率设计上,针对思维链采用小词表加投机推理大幅提速;动作令牌在同一Transformer内以双向注意力机制一次性并行输出,思维链推理则在因果注意力机制下逐字解码,两者并存于同一模型中。

最后是行动层。

行动层采用三层递进设计:Action Expert(动作专家模块)负责生成轨迹,Parallel Decoding(并行解码)保证输出速度,Discrete Diffusion Refinement(离散扩散优化)负责精修质量。



统一行为生成架构,图源GTC演讲

具体来看,Action Expert从3D场景特征、导航目标、驾驶指令中提取关键信息,结合多模态推理生成初始驾驶轨迹。轨迹生成后,Parallel Decoding让所有轨迹点同时输出,而非逐点生成,在长序列轨迹预测场景中,效率优势尤为突出。

Discrete Diffusion Refinement随后对并行生成的轨迹进行多轮迭代优化,类似逐步去噪,最终使轨迹在空间上连续、时间上稳定,并满足车辆动力学约束——整个Diffusion(扩散)过程通过ODE(常微分方程)采样器压缩至2-3步完成。

Diffusion模型还同时预测自车与周围车辆、行人的轨迹,通过联合建模提升复杂交通场景中的博弈能力。对于仍存在偏差的长尾工况,则通过RLHF(基于人类反馈的强化学习)加以修正:筛选大量接管数据建立人类偏好数据集,微调模型的采样过程,使其逐步对齐人类驾驶行为,安全下限随偏好数据的积累持续提升。

从看得到,到想得到,再到做得到,这是一场从感知层开始的重建,最终落地于行动层的执行,形成一个完整的闭环。但对于实际应用来说,这还远远不是终点。

2、从学术到落地,理想如何跑通?

一套方案能够在实验室里跑通,和能装进量产车里落地,是两件完全不同的事。

MindVLA-o1面对的第一个挑战,是难以避免的算力难题。

模型搭载的3D ViT编码器,复杂度远远超过主流的“2D方案”,对端侧算力提出更高的要求。



李想与詹锟谈论马赫100芯片,图源GTC演讲

理想的解法是一颗自研芯片“马赫100”。

它是中国首个采用数据流原生架构的车规级5纳米芯片,天然适配AI推理计算。在标准的大规模矩阵乘计算任务上,马赫100性能较上一代提升约3倍;两颗马赫100实际运行VLA大模型时的有效算力,是英伟达Thor-U的5到6倍。

在马赫100上,理想成功部署参数规模达上一代6倍、计算量提升10倍的VLA模型,实现运行帧率更高,推理速度更快,从传感器输入到车辆执行输出,整体延时仅200到300毫秒。

此外,马赫100还取消了上一代XCU控制器,联合星环OS整合替代,单颗BOM成本大幅低于外购方案。

解决了算力难题,训练成本问题成了第二个“拦路虎”。

3D ViT要大规模预训练,强化学习要在仿真环境里反复迭代。传统的逐步优化式重建太慢,无法支撑大规模并行训练。

为此,理想与NVIDIA团队共建了3D Gaussian Splatting渲染引擎及分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%。

在这个过程中,理想的世界模拟器也升级为前馈式场景重建,可以瞬时生成大规模高保真驾驶场景,模拟环境还能扩展、编辑和生成新场景,不只是复现真实世界。

最后的难题,落在车端的部署。

高精度的模型跑不进车端,能跑进去的精度又不够。为了让模型匹配车端,传统做法是大量实验反复调整模型结构,但这通常需要数月时间。

为了达到更高的效率,理想一方面在模型上通过Sparse Attention(稀疏注意力)机制,进一步提升稀疏化率,保障端侧实时推理效率。

另一方面提出了软硬件协同设计定律:

结合Roofline模型刻画硬件计算能力和内存带宽的限制,在模型性能与硬件约束之间建立统一的分析框架,在约2000种架构配置里寻找精度与推理延迟的最优解。

经过实验得出的最终结论相当“反直觉”:算力受限的条件下,“更宽更浅”的模型比“更深”的模型更高效。

凭借这一成果,理想将架构探索时间从数月缩短至几天。

三道大山一一翻过去,VLA模型带来的变化肉眼可见。

例如,今年1月理想更新的OTA 8.2车机系统,在世界模型中加入了毫秒级方向盘和电门动作数据,让VLA进行行为强化学习——横纵向控制不再机械跟随预设参数,基于对当前场景的综合理解动态输出。

在人车混行路段、小路通行、窄路会车等七个典型城区场景里,它的表现格外突出:例如,在人车混行路段,车辆实时预测行人和非机动车的运动意图,横向避让与纵向调速同步规划;在小路通行时,加减速更细腻,动静态障碍物都能合理避让;在窄路会车,车速和横向位置自动调整,纵向减速平稳没有顿挫。



MindVLA-o1模型通过自研语言指令理解环境语义,图源GTC演讲

在一般场景下,VLA能力也有更多变化。例如,语言指令可以直接改变驾驶行为,“开快点,我赶时间”这类说法,模型能够理解并执行了。

据理想透露,截至2025年底,VLA月使用率80%,VLA指令使用次数1225.4万次。用户最常用的三个指令是左右变道、直行、加减速。

最终,降本、加速、算力,三点合力使得MindVLA-o1模型具备量产条件,而不是停留在纸面。

3、结语

在GTC上,MindVLA-o1的一个演示片段,无关自动驾驶,而是驾驭一条机械臂,轻轻拿起一瓶养乐多,倒进桌上的杯子里。



MindVLA-o1模型的三个不同演示场景,图源GTC演讲

为什么一个为自动驾驶设计的模型,能够操作机械臂?

理想的解释是,同一套VLA模型可以驱动不同形态的物理智能体,自动驾驶与机器人控制共用同一套模型与数据体系。不同执行器,本质上对这套模型来说却是同一类问题——理解环境、推理意图、生成动作序列。

截至2025年11月,理想一共累计近15亿公里的驾驶数据。

如果我们进一步深思,就会发现这样的逻辑:理想正在用大规模的驾驶数据,做通用物理AI的预训练。

短短数年,当人们再次审视理想这家公司,不难发现它已经在通往具身智能的路上走了相当远。

2025年,理想研发投入113亿元,AI相关占比50%;2026年1月,理想将研发团队按“造硅基人”的逻辑重构为四大体系——脏器、脑、软件、硬件;2026年Q2,马赫100将完成量产上车。

“人工智能就是在造人。Agent是数字化的人,具身是物理化的人,只是它是硅基的人,不是我们碳基的。”李想称,L4自动驾驶的汽车,会是生活中一个最重要的硅基人。

他表示,未来3到5年中高端汽车的竞争,本质上是具身智能的竞争。过去,从功能机到智能手机的演进,来自芯片和操作系统的改变,而在具身智能时代,改变对应的是芯片和模型的Co-Design。

这份认知驱动着理想,从2022年自研芯片,到2023年构建基座模型,一步步将能力向底层收拢。

如今,理想已经搭建起一套从算力、感知到决策的完整体系,其定位也从“造车公司”,转向“以汽车为载体的物理AI公司”。汽车不再只是产品,而是规模化落地与持续训练的现实世界接口。

因此,MindVLA-o1的意义,远不止性能提升。它标志着一种范式的转变:模型开始真正进入三维世界,从对输入的被动响应,转向对环境的主动建模与推演。

自动驾驶的边界正在变得模糊,跨越界线,理想的物理AI之路,或许才刚刚开始。

(本文头图来源于理想汽车官网。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

诡谲怪谈
2025-01-18 14:09:34
苏林,再次首访中国

苏林,再次首访中国

新民周刊
2026-04-10 09:05:29
不要再向以色列提供一架战斗机!

不要再向以色列提供一架战斗机!

武器纵论
2026-04-09 22:35:26
张雪峰被“复活”引争议!网友:八奇技之一,拘灵遣将!

张雪峰被“复活”引争议!网友:八奇技之一,拘灵遣将!

品牌新
2026-04-10 08:57:40
2026驾驶证全面调整!C1/C2车主必看:换证、年龄、扣分全变了

2026驾驶证全面调整!C1/C2车主必看:换证、年龄、扣分全变了

复转这些年
2026-04-09 11:26:53
苹果给折叠屏起了个新名字,国产厂商连夜抄作业

苹果给折叠屏起了个新名字,国产厂商连夜抄作业

薛定谔的BUG
2026-04-09 17:06:08
小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

鲁中晨报
2026-04-10 09:32:05
姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

飛娱日记
2026-03-19 07:26:09
巴基斯坦狠批以色列,并部署空军进入伊朗

巴基斯坦狠批以色列,并部署空军进入伊朗

世家宝
2026-04-10 13:49:33
记者现场直击!伊斯兰堡严阵以待

记者现场直击!伊斯兰堡严阵以待

环球网资讯
2026-04-10 13:56:00
郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

新华社
2026-04-09 15:36:11
刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

刚从朝鲜回来,说点不中听的:朝鲜的真实面目,可能让你很意外

复转这些年
2026-04-10 11:41:03
公安局副局长开会时猝死,年仅45岁

公安局副局长开会时猝死,年仅45岁

南方都市报
2026-04-10 12:36:30
郑丽文访陆的“北京时刻”:大陆的诚意满满,高规格接待

郑丽文访陆的“北京时刻”:大陆的诚意满满,高规格接待

魔都姐姐杂谈
2026-04-10 12:13:04
一句“叔叔放我这儿吧”看哭全网:离婚后她成了父母都不要的孩子

一句“叔叔放我这儿吧”看哭全网:离婚后她成了父母都不要的孩子

行者聊官
2026-04-10 08:26:17
虎父无犬子!关键时刻拯救球队,2战轰下65分,名记:他才21岁啊

虎父无犬子!关键时刻拯救球队,2战轰下65分,名记:他才21岁啊

金山话体育
2026-04-10 08:36:17
全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

眼光很亮
2026-04-08 14:51:46
王志文连斜眼都不敢?昔日大佬被打碎,太揪心!

王志文连斜眼都不敢?昔日大佬被打碎,太揪心!

喜欢历史的阿繁
2026-04-10 01:32:21
郑丽文在北京新造型!穿蓝紫色西服彰显贵气,还双手背后很有气势

郑丽文在北京新造型!穿蓝紫色西服彰显贵气,还双手背后很有气势

八八尚语
2026-04-10 12:58:23
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
2026-04-10 14:44:49
连线Insight incentive-icons
连线Insight
产业升级创新者的聚集地。
1702文章数 1499关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

亲子
时尚
旅游
家居
游戏

亲子要闻

手外纪事|第57期 束带宝宝,父母没有放弃治疗,换来孩子一个未来

直播|| 春夏百元级首饰,最爱逛的一定有他家!

旅游要闻

亚洲游客抛弃中东,扎堆邮轮与短途游

家居要闻

复古风格 自然简约

KK官方对战平台CS1.6传奇联赛瑞士轮收官:八强席位即将揭晓

无障碍浏览 进入关怀版