理想发布新基础模型MindVLA-o1！五大创新技术，打通智驾与具身智能|轨迹|模态|大模型|理想汽车|知名企业

理想发布新基础模型MindVLA-o1！五大创新技术，打通智驾与具身智能

2026-03-17 22:00:19　来源: 车东西

北京举报

分享至

车东西（公众号：chedongxi）
作者｜张睿
编辑｜志豪

理想汽车发布新自动驾驶基础模型，也能够扩展到机器人。

车东西3月17日消息，今日，理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026，发布了理想汽车下一代自动驾驶基础模型MindVLA-o1。

▲理想汽车基座模型负责人詹锟（图源网络）

根据詹锟的介绍，MindVLA-o1以原生多模态MoE Transformer为核心，通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习（Closed-loop RL）和软硬件协同设计（Hardware–Software Co-Design），构建了面向物理世界智能的自动驾驶基础模型，让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

▲MindVLA-o1基础模型

而根据詹锟的说法，MindVLA-o1基础模型正在向具身智能通用模型进化，他表示：“当我们把视觉、语言和行动统一到一个模型中时，它已不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人。因此，自动驾驶只是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。”

一、基于五大技术多方面提升自动驾驶性能

具体来看，理想汽车自动驾驶基础模型MindVLA-o1有以下五大技术要点：

1、具备3D空间理解能力，使模型看得更远。

在感知层面，理想汽车采用以视觉为核心的 3D ViT Encoder（3D视觉模型编码器），并利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构，使其在单一表示中同时具备语义理解与三维感知能力。

▲3D空间理解技术

同时引入前馈式3DGS表示（Feedforward 3D Representation），将场景拆分为静态环境与动态物体分别建模，并通过下一帧预测（Next-state prediction）作为自监督信号，使模型同时学习深度信息、语义结构与物体运动，最终形成融合空间结构与时间上下文的高质量3D表示。

2、拥有多模态思考能力，让模型想得更深。

在思考层面，自动驾驶既要理解当前环境，也要预测未来几秒的场景演化。在语言模型承担语义理解、常识知识和交互能力的基础上，理想汽车还引入了预测式隐世界模型。

▲多模态思考能力

训练分三阶段：第一，用海量视频数据预训练Latent World Token（隐世界词元），构建未来表征；第二，在MindVLA-o1中持续世界模型的推演，形成隐空间的未来推理能力；第三，将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此，模型不仅能理解当前场景并进行逻辑判断，还能在隐空间中提前“想象”未来画面，将驾驶决策具象化，理想汽车将这种能力定义为多模态思考（Generative Multimodal Thinking）。

3、形成统一行为生成机制，使模型行得更稳。

在行为层面，理想汽车构建了统一行为生成（Unified Action Generation）机制。

▲统一行为生成

首先，MindVLA-o1使用VLA-MoE（混合专家模型）架构，并引入专门的Action Expert（动作专家），从3D场景特征、导航目标、驾驶指令等多维输入中提取信息，并结合多模态思考生成高精度驾驶轨迹。

其次，为满足实时性要求，系统采用并行解码（Parallel Decoding），同时生成所有轨迹点，大幅提升效率。

最后，引入Discrete Diffusion（离散扩散）进行多轮迭代优化，类似逐步去噪，确保轨迹空间连续、时间稳定，并符合车辆动力学约束。

4、在闭环强化学习框架下，模型实现更快进化。

在模型迭代层面，理想汽车构建了闭环强化学习框架，让模型不仅能从真实数据学习，还能在世界模拟器（World Simulator）中持续探索和优化策略。

▲闭环强化学习

为此，理想汽车将逐步优化式重建为Feed-forward（前馈）场景重建，使系统能够瞬时生成大规模、高保真驾驶场景，支持大规模并行训练。

同时，结合生成式模型（Generative Models），模拟环境可扩展、编辑并生成全新场景。为支持大规模模拟与训练，理想汽车开发了统一的3D Gaussian Splatting（3D高斯泼溅）渲染引擎和分布式训练框架，渲染速度提升近2倍，整体训练成本降低约75%。

5、在软硬件协同设计定律下，模型部署更高效。

为解决传统端侧大模型部署耗时长、调试频繁的问题，理想汽车面向端侧大模型的软硬件协同设计定律，将模型结构与验证损失建模，并结合Roofline模型刻画硬件计算能力与内存带宽限制，在模型性能与硬件约束之间建立统一的分析框架。

▲软硬件协同设计

理想汽车基座模型团队评估了近2000种模型架构配置，在英伟达Orin与Thor平台上完成验证，找到了模型精度与推理延迟之间的Pareto Front（帕累托前沿），将架构探索时间缩短，提升了端侧VLA模型的设计与部署效率。

二、四大核心构建AI框架也可扩展至机器人

同时，理想汽车方面提到，MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分，这套AI框架由四大核心模块组成：

1、MindData，统一的VLA数据引擎，负责大规模数据的采集、清洗和自动标注；

2、MindVLA-o1，统一的原生多模态VLA模型，可以理解环境、进行推理，并生成驾驶行为；

3、MindSim，可控的多模态世界模型，用于生成复杂驾驶场景并支持大规模闭环训练；

4、RL Infra（强化学习基础设施），通过奖励模型和策略学习，使系统在仿真与真实环境中自我进化。

▲AI框架四大核心模块

四部分协同形成完整闭环，使AI能够感知、理解并在物理世界中自主行动，并持续学习。

从结构上看，这套系统如同一个“数字大脑”：感知层对应视觉皮层，推理与规划如前额叶，场景生成似运动皮层，强化学习则类似多巴胺反馈，实现了感知、理解、行动和持续优化的完整闭环。

理想汽车方面表示，车是最大号的机器人，其本质是在构建硅基生命体的躯干与大脑，而该AI框架不仅服务于汽车，也可扩展至机器人及各种物理系统。

另外，理想汽车方面还提到，MindVLA-o1相关的多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会上发表。

结语：理想新模型意在打通自动驾驶与具身智能

自2021年启动辅助驾驶自研以来，理想辅助驾驶技术架构经历了多轮迭代，2025年，理想汽车推出了VLA司机大模型，并于8月随理想i8交付正式推送，9月向AD Max用户全量推送。

截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次；春节期间理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次。

未来，理想汽车表示持续构建面向物理世界智能的完整AI系统。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.