网易首页 > 网易号 > 正文 申请入驻

马赫100芯片支撑、首搭全新L9

0
分享至

来源:市场资讯

(来源:Xauto报告)


架构升级成为今年自动驾驶赛道的一个关键词。

今年以来,蔚来推送世界模型2.0、小鹏推送第二代VLA、Momenta推出Momenta R7强化学习世界模型,在前几天举办的NVIDIA GTC 2026大会上,理想发布了下一代自动驾驶基座模型MindVLA-o1。

理想汽车基座模型负责人詹锟在演讲中详细地介绍了新一代架构,随后,理想汽车创始人李想又与詹锟进行了一场生动的对话。

让我们得以对理想下一代自动驾驶架构的搭建和思考有了更多了解。

01

自动驾驶架构再升级,引入3D ViT

詹锟介绍,自动驾驶架构进入端到端之后,才算是真正的AI系统。但早期的端到端属于低阶智能,类似于昆虫具备的智能,本质是通过学习模仿来做事情。

因此,想让自动驾驶系统有好的表现,就需要喂给它大量数据进行模仿学习,然而现实世界之复杂,长尾场景难以穷尽,靠吃数量来学习,显然无法完全覆盖。

这就是为什么,当前第一梯队辅助驾驶系统在常规城市路况下表现都比较不错,但在长尾场景中,依然会暴露各种各样的问题,远远不如人类司机。

那么如何让自动驾驶系统从模仿学习,进化到理解交通场景?

在端到端的基础之上,各家技术架构开始分化。詹锟介绍,端到端中间加了Language语义推理,就成了VLA,中间加了未来图像想象,就成了世界模型。

去年的英伟达GTC大会上,理想推出VLA架构。一年沉淀下来,理想智驾整体确实有很大进步,但很快又到了一个瓶颈期。在Xauto智驾榜30个考点中,理想在窄路通行、三点式掉头等难度较高场景依然无法通过。


面对这样的现状,李想提出了一个思考。

人类开车看上去没那么难,每个普通人都能把车开得又快又稳,但全世界最顶尖的企业砸了几千亿进去,自动驾驶仍然进展缓慢。问题到底出在哪?

经过总结,理想认为,过去一直在教AI做成年人的事,但从来没让它当过小孩。

人类在0到6岁的阶段学会了走路,学会了扔球、接球。这看起来只是简单的动作,但实际上已经帮助孩子建立了对三维物理空间的理解。

人类能精准测距、稳定驾驶,是因为“3D预训练”在人类6岁前就完成了。

今天所有的端到端系统本质上都是“看2D视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。

此前被行业津津乐道的BEV、OCC都存在着短板,BEV把世界从俯视角拍扁,从而丢失了高度信息,OCC虽是3D,但是缺少语义信息。

理想认为,物理AI缺的不是更大的模型、更多的数据,而是一个能真正理解3D世界的视觉基础。

为了解决这个问题,理想引入了原生3D ViT,也就是三维视觉编码器。

ViT(Vision Transformer),是基于Transformer的主干网络,具备全局注意力的特性,能提取出更优秀的全局上下文特征,是大模型时代的主流。

理想介绍,3D ViT是让模型一开始就工作在真实的三维世界里,以高分辨率多视角视觉为核心,在编码阶段直接完成对3D空间几何和语义的统一理解,包括空间结构、位置关系、语义信息等一次完成。

那么,模型不只是看见画面,而是理解世界。

在这个体系下,激光雷达的角色变了,它不再是感知的核心,而更像一把高精度的尺子,为视觉提供几何标定和近场空间约束。

李想表示,在统一建模下,3D ViT可以稳定感知并推理到500米以上的空间范围。

这里想提一个点,最近华为将旗下多款车型升级到了更高精度的896线激光雷达,或许也是基于同样的思考,为自动驾驶模型描绘更高精度的物理世界。

既然3D ViT有诸多优势,理想为何此时才开始引入其自动驾驶架构?谈及这个问题。

詹锟表示,因为3D ViT对车端推理算力提出了极高的要求,理想汽车自研的马赫100芯片,单颗算力达到1280TOPS,自研芯片的落地为3D ViT部署提供基础。

02

五大核心技术点,最新架构解读

了解了理想汽车新一代自动驾驶架构的核心变化,我们再来全面了解一下其核心技术点。

理想汽车下一代自动驾驶架构的名称是MindVLA-o1。

这个架构以原生多模态MoE Transformer为核心,有五方面核心技术点,包括3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计。


在感知层面,理想汽车采用以视觉为核心的3D ViT Encoder(3D视觉模型编码器),并利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构,使其同时具备语义理解与三维感知能力。

同时引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,并通过下一帧预测作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合空间结构与时间上下文的高质量3D表示。

具备3D空间理解能力,使模型看得更远。


在思考层面,自动驾驶既要理解当前环境,也要预测未来几秒的场景演化。

在语言模型承担语义理解、常识知识和交互能力的基础上,理想汽车还引入了预测式隐世界模型,在隐空间中高效模拟未来。

训练分三阶段:

第一,用海量视频数据预训练Latent World Token(隐世界词元),构建未来表征;

第二,在MindVLA-o1中持续世界模型的推演,形成隐空间的未来推理能力;

第三,将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此,模型不仅能理解当前场景并进行逻辑判断,还能在隐空间中提前“想象”未来画面,将驾驶决策具象化。

理想汽车将这种能力定义为多模态思考。拥有多模态思考能力,让模型想得更深。


在行为层面,理想汽车构建了统一行为生成(Unified Action Generation)机制。

首先,MindVLA-o1使用VLA-MoE(混合专家模型)架构,并引入专门的Action Expert,从3D场景特征、导航目标、驾驶指令等多维输入中提取信息,并结合多模态思考生成高精度驾驶轨迹。

其次,为满足实时性要求,系统采用并行解码(Parallel Decoding),同时生成所有轨迹点,大幅提升效率。

最后,引入Discrete Diffusion(离散扩散)进行多轮迭代优化,类似逐步去噪,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。

形成统一行为生成机制,使模型行得更稳。


在模型迭代层面,理想汽车构建了闭环强化学习框架,让模型不仅能从真实数据学习,还能在世界模拟器中持续探索和优化策略。

为此,理想汽车将传统逐步优化式重建升级为Feed-forward(前馈)场景重建,使系统能够瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。

同时,结合生成式模型,模拟环境可扩展、编辑并生成全新场景。

为支持大规模模拟与训练,理想汽车开发了统一的3D Gaussian Splatting(3D高斯泼溅)渲染引擎和分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%,实现低成本、高效率的强化学习闭环。

在闭环强化学习框架下,模型实现更快进化。


为解决传统端侧大模型部署耗时长、调试频繁的问题,理想汽车提出面向端侧大模型的软硬件协同设计定律,将模型结构与验证损失建模,并结合Roofline模型刻画硬件计算能力与内存带宽限制,在模型性能与硬件约束之间建立统一的分析框架。

理想汽车基座模型团队评估了近2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到了模型精度与推理延迟之间的Pareto Front(帕累托前沿),将架构探索时间从数月缩短至数天,大幅提升端侧VLA模型的设计与部署效率。

在软硬件协同设计定律下,模型部署更高效。

03

根据理想透露的信息,新一代自动驾驶架构量产时间或在今年二季度,首发落地车型是全新理想L9。

李想此前介绍称,单颗马赫100的有效算力就是英伟达Thor U的3倍。全新理想L9还准备了一个顶配版L9 Livis,这个版本将搭载两颗马赫100芯片。

另一个值得关注的地方是,主流自动驾驶玩家都在向世界模型靠拢,通过理想对于3D ViT的介绍也可以看到,理想也在试图让模型真正理解3D世界。

此外,行业的共识是,自动驾驶只是物理AI落地的一个关键场景,对于自动驾驶的探索,不仅服务于汽车,也可扩展至机器人及各种物理系统。

因此,打造一个通用物理AI基座模型,也是当前车企和智驾公司研发投入的重点。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰继续反攻,重压下伊朗或接受和平

乌克兰继续反攻,重压下伊朗或接受和平

名人苟或
2026-03-25 16:08:05
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
讨厌一个人,其实不用翻脸的,最有水平的处理方式是:森田理论

讨厌一个人,其实不用翻脸的,最有水平的处理方式是:森田理论

德鲁克博雅管理
2025-12-09 17:05:19
迈巴赫S级轿车全球首秀,李德思任奔驰销售公司总裁后首次亮相

迈巴赫S级轿车全球首秀,李德思任奔驰销售公司总裁后首次亮相

新京报
2026-03-24 23:40:10
央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

央视怒批!“绝望的文盲”丢脸到国外,冯远征的话终于有人信了

人间无味啊
2026-03-13 03:17:17
中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

中国已无需武统?美专家:美军白忙一场,解放军已有不战而胜之法

有牙的兔纸
2026-02-25 00:44:28
钱再多有啥用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有啥用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

青途历史
2026-02-02 18:31:15
巴拿马这回彻底傻眼了!抢完港口后,却发现全世界没人敢接盘

巴拿马这回彻底傻眼了!抢完港口后,却发现全世界没人敢接盘

混沌录
2026-03-25 22:37:03
你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

夜深爱杂谈
2026-03-25 22:30:07
黄天鹅公布角黄素抽检报告后,每经记者四问王海

黄天鹅公布角黄素抽检报告后,每经记者四问王海

每日经济新闻
2026-03-25 21:11:06
伊万不用,邵佳一也不待见,归化悍将一次次惨遭无视,原因找到了

伊万不用,邵佳一也不待见,归化悍将一次次惨遭无视,原因找到了

零度眼看球
2026-03-25 06:52:56
王毅同伊朗外长阿拉格齐通电话:谈起来总比打下去好

王毅同伊朗外长阿拉格齐通电话:谈起来总比打下去好

新京报
2026-03-24 22:14:05
美股太空概念股盘前全线上扬

美股太空概念股盘前全线上扬

每日经济新闻
2026-03-25 16:26:06
豪门梦破碎后,她居然还能爆红?

豪门梦破碎后,她居然还能爆红?

Yuki女人故事
2026-03-24 17:44:06
周杰伦新专辑“难听”上热搜?预售已超73万张,MV耗资超2000万元…

周杰伦新专辑“难听”上热搜?预售已超73万张,MV耗资超2000万元…

北京商报
2026-03-24 22:16:29
燃爆!大批重型导弹砸向美以战略要地,伊朗第80波攻势打疼美以

燃爆!大批重型导弹砸向美以战略要地,伊朗第80波攻势打疼美以

军武咖
2026-03-25 13:10:43
美国坐不住了!厦金大桥主塔封顶:这不是修桥,是在为统一铺路!

美国坐不住了!厦金大桥主塔封顶:这不是修桥,是在为统一铺路!

卷史
2026-03-24 15:14:17
深圳1500亿元大规划落地!24平方公里新城动工!

深圳1500亿元大规划落地!24平方公里新城动工!

深圳梦
2026-03-25 21:22:57
张雪峰去世,曾言:“如果有一天我死了,各大平台会有一个热搜,希望能成为一代人的回忆”

张雪峰去世,曾言:“如果有一天我死了,各大平台会有一个热搜,希望能成为一代人的回忆”

神奇故事
2026-03-24 22:38:02
短时强降水+8级大风!广东天气即将“变脸”

短时强降水+8级大风!广东天气即将“变脸”

广东发布
2026-03-25 15:14:29
2026-03-25 23:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2626246文章数 6136关注度
往期回顾 全部

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

头条要闻

成都宝妈1年买5套"老破小"实现以租养贷:首付100多万

头条要闻

成都宝妈1年买5套"老破小"实现以租养贷:首付100多万

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

科技要闻

红极一时却草草收场,Sora宣布正式关停

态度原创

数码
房产
亲子
时尚
公开课

数码要闻

经典风味别样演绎,华擎Z890 Taichi太极十周年纪念版主板亮相

房产要闻

41亿!259亩!建学校…三亚这个大城更,最新方案曝光!

亲子要闻

安踏儿童发布追风8跑鞋

女人过了40岁别胡乱穿衣,赶紧看看这些日系穿搭,舒适又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版