网易首页 > 网易号 > 正文 申请入驻

理想发布新基础模型MindVLA-o1!五大创新技术,打通智驾与具身智能

0
分享至


车东西(公众号:chedongxi)
作者 | 张睿
编辑 | 志豪

理想汽车发布新自动驾驶基础模型,也能够扩展到机器人。

车东西3月17日消息,今日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发布了理想汽车下一代自动驾驶基础模型MindVLA-o1。


▲理想汽车基座模型负责人詹锟(图源网络)

根据詹锟的介绍,MindVLA-o1以原生多模态MoE Transformer为核心,通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习(Closed-loop RL)和软硬件协同设计(Hardware–Software Co-Design),构建了面向物理世界智能的自动驾驶基础模型,让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。


▲MindVLA-o1基础模型

而根据詹锟的说法,MindVLA-o1基础模型正在向具身智能通用模型进化,他表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。因此,自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”

一、基于五大技术 多方面提升自动驾驶性能

具体来看,理想汽车自动驾驶基础模型MindVLA-o1有以下五大技术要点:

1、具备3D空间理解能力,使模型看得更远。

在感知层面,理想汽车采用以视觉为核心的 3D ViT Encoder(3D视觉模型编码器),并利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构,使其在单一表示中同时具备语义理解与三维感知能力。


▲3D空间理解技术

同时引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,并通过下一帧预测(Next-state prediction)作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合空间结构与时间上下文的高质量3D表示。

2、拥有多模态思考能力,让模型想得更深。

在思考层面,自动驾驶既要理解当前环境,也要预测未来几秒的场景演化。在语言模型承担语义理解、常识知识和交互能力的基础上,理想汽车还引入了预测式隐世界模型。


▲多模态思考能力

训练分三阶段:第一,用海量视频数据预训练Latent World Token(隐世界词元),构建未来表征;第二,在MindVLA-o1中持续世界模型的推演,形成隐空间的未来推理能力;第三,将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此,模型不仅能理解当前场景并进行逻辑判断,还能在隐空间中提前“想象”未来画面,将驾驶决策具象化,理想汽车将这种能力定义为多模态思考(Generative Multimodal Thinking)。

3、形成统一行为生成机制,使模型行得更稳。

在行为层面,理想汽车构建了统一行为生成(Unified Action Generation)机制。


▲统一行为生成

首先,MindVLA-o1使用VLA-MoE(混合专家模型)架构,并引入专门的Action Expert(动作专家),从3D场景特征、导航目标、驾驶指令等多维输入中提取信息,并结合多模态思考生成高精度驾驶轨迹。

其次,为满足实时性要求,系统采用并行解码(Parallel Decoding),同时生成所有轨迹点,大幅提升效率。

最后,引入Discrete Diffusion(离散扩散)进行多轮迭代优化,类似逐步去噪,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。

4、在闭环强化学习框架下,模型实现更快进化。

在模型迭代层面,理想汽车构建了闭环强化学习框架,让模型不仅能从真实数据学习,还能在世界模拟器(World Simulator)中持续探索和优化策略。


▲闭环强化学习

为此,理想汽车将逐步优化式重建为Feed-forward(前馈)场景重建,使系统能够瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。

同时,结合生成式模型(Generative Models),模拟环境可扩展、编辑并生成全新场景。为支持大规模模拟与训练,理想汽车开发了统一的3D Gaussian Splatting(3D高斯泼溅)渲染引擎和分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%。

5、在软硬件协同设计定律下,模型部署更高效。

为解决传统端侧大模型部署耗时长、调试频繁的问题,理想汽车面向端侧大模型的软硬件协同设计定律,将模型结构与验证损失建模,并结合Roofline模型刻画硬件计算能力与内存带宽限制,在模型性能与硬件约束之间建立统一的分析框架。


▲软硬件协同设计

理想汽车基座模型团队评估了近2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到了模型精度与推理延迟之间的Pareto Front(帕累托前沿),将架构探索时间缩短,提升了端侧VLA模型的设计与部署效率。

二、四大核心构建AI框架 也可扩展至机器人

同时,理想汽车方面提到,MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分,这套AI框架由四大核心模块组成:

1、MindData,统一的VLA数据引擎,负责大规模数据的采集、清洗和自动标注;

2、MindVLA-o1,统一的原生多模态VLA模型,可以理解环境、进行推理,并生成驾驶行为;

3、MindSim,可控的多模态世界模型,用于生成复杂驾驶场景并支持大规模闭环训练;

4、RL Infra(强化学习基础设施),通过奖励模型和策略学习,使系统在仿真与真实环境中自我进化。


▲AI框架四大核心模块

四部分协同形成完整闭环,使AI能够感知、理解并在物理世界中自主行动,并持续学习。

从结构上看,这套系统如同一个“数字大脑”:感知层对应视觉皮层,推理与规划如前额叶,场景生成似运动皮层,强化学习则类似多巴胺反馈,实现了感知、理解、行动和持续优化的完整闭环。

理想汽车方面表示,车是最大号的机器人,其本质是在构建硅基生命体的躯干与大脑,而该AI框架不仅服务于汽车,也可扩展至机器人及各种物理系统。

另外,理想汽车方面还提到,MindVLA-o1相关的多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会上发表。

结语:理想新模型意在打通自动驾驶与具身智能

自2021年启动辅助驾驶自研以来,理想辅助驾驶技术架构经历了多轮迭代,2025年,理想汽车推出了VLA司机大模型,并于8月随理想i8交付正式推送,9月向AD Max用户全量推送。

截至2025年底,VLA司机大模型月使用率达到80%,VLA指令累计使用1225.4万次;春节期间理想辅助驾驶总里程达2.5亿公里,VLA指令使用次数达130.3万次。

未来,理想汽车表示持续构建面向物理世界智能的完整AI系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

富强巨靠谱
2025-02-26 09:30:43
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
文章上海开陕西馆子八號院儿!穿工服端盘子招呼客人,全程微笑

文章上海开陕西馆子八號院儿!穿工服端盘子招呼客人,全程微笑

观鱼听雨
2026-04-09 20:06:27
斯诺克单赛季奖金榜:赵心童力压罗伯逊排第1,百万英镑到手!

斯诺克单赛季奖金榜:赵心童力压罗伯逊排第1,百万英镑到手!

刘姚尧的文字城堡
2026-04-10 09:34:16
3-1!0-3!疯狂一夜,维拉掀翻博洛尼亚,塞尔塔惨败,波尔图战平

3-1!0-3!疯狂一夜,维拉掀翻博洛尼亚,塞尔塔惨败,波尔图战平

足球狗说
2026-04-10 05:10:46
1978年陈丽华丈夫迟重瑞罕见青春珍贵留影

1978年陈丽华丈夫迟重瑞罕见青春珍贵留影

荒野老五
2026-04-08 17:55:21
扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

夜深爱杂谈
2026-04-08 17:04:46
澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

环球网资讯
2026-04-09 14:51:06
重磅!佤邦下令:全邦所有化工厂、炸药厂全面停业整顿

重磅!佤邦下令:全邦所有化工厂、炸药厂全面停业整顿

缅甸中文网
2026-04-09 14:44:17
广东3消息!赞助商力撑杜锋,跟队记者披露新大外,焦泊乔新进展

广东3消息!赞助商力撑杜锋,跟队记者披露新大外,焦泊乔新进展

多特体育说
2026-04-09 23:18:22
藤蔓,不要再读téng màn了!丢不起那个人!

藤蔓,不要再读téng màn了!丢不起那个人!

未央看点
2026-04-08 05:50:07
贝尔湖的归属终于有了结果?历经8年艰苦谈判,我国拿回多少面积

贝尔湖的归属终于有了结果?历经8年艰苦谈判,我国拿回多少面积

抽象派大师
2026-04-09 14:45:59
原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

原来她已去世4年,曾穿旗袍满身帝王绿,300间商铺345套房随便住

混沌录
2026-04-09 18:24:16
作家王朔回应“被八旬作家杨本芬抄袭”:只言片语算不上抄袭,老太太挺好的,道歉必须原谅

作家王朔回应“被八旬作家杨本芬抄袭”:只言片语算不上抄袭,老太太挺好的,道歉必须原谅

极目新闻
2026-04-09 15:35:29
世锦赛开打,丁俊晖发长文引热议!谈到克鲁斯堡梦想及赵心童夺冠

世锦赛开打,丁俊晖发长文引热议!谈到克鲁斯堡梦想及赵心童夺冠

小火箭爱体育
2026-04-10 09:45:13
73岁大爷伺候95岁母亲12年后哭诉:家有长寿母亲,是我晚年的噩梦

73岁大爷伺候95岁母亲12年后哭诉:家有长寿母亲,是我晚年的噩梦

烙任情感
2026-04-09 09:50:30
美媒重排2025年选秀:杨瀚森掉出首轮 弗拉格状元克努佩尔榜眼

美媒重排2025年选秀:杨瀚森掉出首轮 弗拉格状元克努佩尔榜眼

罗说NBA
2026-04-10 05:50:24
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
电动车真实用车成本曝光:省的电费全被车轱辘吃光,看完太真实了

电动车真实用车成本曝光:省的电费全被车轱辘吃光,看完太真实了

复转这些年
2026-04-08 13:12:11
日企最后的堡垒正在崩塌,几乎被中企逼上绝路,难怪日媒这么绝望

日企最后的堡垒正在崩塌,几乎被中企逼上绝路,难怪日媒这么绝望

小熊侃史
2026-04-08 07:40:09
2026-04-10 11:16:49
车东西
车东西
未来汽车看这里。
6042文章数 6407关注度
往期回顾 全部

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

把孙颖莎逼入绝境后,18岁非洲女孩哭着离场

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

AI短剧"买脸"成风 肖像生意成灰色产业

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

教育
游戏
旅游
房产
公开课

教育要闻

电化学储能电站设计标准(GB_T 51048-2025)通俗解读

太用心!《控制》新作有完整中文配音

旅游要闻

花开如雪 云南南华这株古流苏树惊艳春天

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版