对话理想汽车谢炎、詹锟：年底追上特斯拉FSD，自研只为解决问题

分享至

按照传统，原本应该在理想L9 Livis上市发布会中披露的技术细节，被单独拎出来成为了理想Livis Day。

其背后或许来自两方面原因：一是理想更加聚焦了，李想曾表示L9 Livis发布会那一个小时最重要的任务是讲清“如何向上”；二是随着理想AI战略逐步进入“深水区”，其有必要建立一个类似于AI科技日的节点，以加深外界对其的AI认知。

因此在6月15日的理想Livis Day上，卖车成为了次要任务，重点更多放在展示软件和具身智能领域的全面升级上，包括自研芯片、新一代座舱、车载模型架构、全年OTA路线等。

6月16日的媒体沟通会上，理想汽车CTO谢炎、基座模型负责人詹锟也对芯片、模型，以及智驾路线等细节做了进一步详细阐释。通过两个小时的深度对话，理想的差异化突围路径也开始越来越清晰。

关于“四季度赶上特斯拉FSD”目标，理想的优势在于整合效率更高，在相似的组织规模下，理想最大程度打破了“部门墙”；此外特斯拉团队背景相对单一，而理想在技术边界上把分工打破，重新做整合，团队成员相互之间的合作更加紧密。

更明确的拆分，一是基础体验，包括安全感、效率、舒适；二是能力方面，例如倒车礼让、极窄通行下的感知精准度。由于芯片很多性能还没有释放，完成目标在詹锟看来“非常有信心”。

作为自动驾驶“燃料”的数据同样是重心所在，目前理想Livis版本的数据质量已达到L4公司采集车队水平。谢炎强调足够大的车队基数是前提，同时必须重视“行为质量”，尽管收敛作用会随模型提升呈对数曲线衰减，但通过扩大车队规模和提升数据质量可以有效抵抗这种衰减。

当然这种追赶遵循的不是一条线性路径，事实上不少用户对于L9 Livis的体验是智驾体感变“肉”了，例如加速不够积极，博弈中也较为胆小。谢炎表示下一个版本将改进加速逻辑，提升博弈能力和积极性，预计模型上限比上一版有大幅提升。

可以认为，基于具身汽车理念所进行的改变，渗透到产品的方方面面，智驾更多需要在“硅基家人”的框架下去实现更优质的表现，包括如何在安全舒适性和智驾激进性之间去做取舍，也是一个需要长期平衡的命题。

理想已经在智驾路线上做出了一些调整，整体呈现出向纯视觉靠拢、激光雷达并重的趋势，基于CVPR最佳论文的3D-VIT技术已经证明了纯视觉可以学习完整3D空间结构，也是追赶特斯拉的关键。当然激光雷达依然存在，但更多是作为L3、L4的安全兜底，以解决一些极端情况下的问题，以及更好的数据采集。

马赫M100芯片无疑是拉开理想“下半场”序幕的核心，但其实4年前就已经立项，一是为了成本，二是通过自研提升上限，“如果做不到比外购的更好，那么做的意义就不大”。

理想“上半场”的价值，体现为给芯片“铺路”。谢炎认为自研芯片的基本条件是年营收千亿，才有可能花几亿去做芯片。

马赫M100一开始的目标定为了Orin X的4倍性能，同时还要实现更低的成本。沿用英伟达的路线显然不可能完成，路线的差异成为了破局关键，即打破架构依赖，用谢炎的话来说就是“拿掉中间的翻译”。

事实上就目前的智驾需求，一颗马赫M100芯片已经完全足够，多出来的一颗更多是为下一阶段做“预备”。对于当下众多车企纷纷自研芯片，谢炎仍旧对马赫M100芯片的竞争力表达了高度的自信。

在行业趋势判断上，理想认为在L3/L4阶段，全域软硬一体能避免冗余和高延迟，是领先企业摆脱同质化竞争、达到更高智能化标准的必然选择。虽然未来技术达到平台期后可能出现分工，但在当前技术未收敛期，垂直整合仍是核心竞争力。

以下是沟通会内容节选，部分内容经编辑梳理，不影响核心观点与表达逻辑：

Q：理想经过很多次智能化体系调整，最终把芯片、基座模型和智能辅助驾驶整合成统一的团队，这种“三位一体”和特斯拉的FSD、HW、xAI相比，差异化的护城河在哪？

谢炎：跟特斯拉相比，大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。

第一是，需要快速迭代。今天的AI发展很快。从芯片领域来说，英伟达也迭代很快，不仅是自己迭代快，还不断收购公司补充自己的技术，说明这个行业竞争非常激烈。所以迭代快，是我们进行组织整合的一个目标，几个团队更紧密地合作，迭代速度会上去。

第二是，需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代，如果没有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型联合设计，才能把问题解决得更好的情况下，我们就失去了这样的机会，特别是一些大的创新。

我个人观点是，当技术发展到平台期时，这时分工会很细。比如PC（计算机）发展到2010年时，分工非常细了，操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期，斜率非常高时，你会发现很多公司又回过头来做整合，因为需要在技术边界上把分工打破，重新做整合。

我认为技术快速发展的时代，这是有志于领先的公司肯定要走的一条路。当然这个投入肯定不小，很多公司不具备这种能力。在我们团队，以我个人为例，我的背景是做过操作系统、架构、应用层等AI各个方向，所以我们的整合效率相对更高一些。

除此之外，组织规模小一点也是优势。如果需要高密度、高整合度，组织规模不能太大，如果组织规模太大，就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因，就是想让大家合作得更紧密些。如果团队规模很大，每个团队都给自己立一道墙，自己成为一道闭环，相互之间的合作就会很难。

Q：四年前当时整个行业都还在冯·诺依曼架构的路径依赖中，你们看到了什么、坚持了什么？昨天提到整个链条要从头到尾全部变短才是真正的全栈优化，背后的组织是怎么实现的？

谢炎：四年前，我们给自己立了一个很高的目标，这个目标也是一个非常合理的目标——就是自研。我们为什么要自研？我和李想有一个非常一致的意见：自研不是为了证明自己有能力做，而是真正去解决问题。

四年前我们看到的问题：一是算力成本非常高，而且会不断变高，因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线，我们给自己定的目标是，如果做不到比外购芯片更好，那做的意义不大。当时定的目标是4倍Orin的性能。

当然这个目标不是瞎定的，我们花了半年时间进行分析。如果要达到这个目标，背后有一套逻辑——你要做得比英伟达更好，用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年，积累比你深，资源比你多几个数量级。就像你跟博尔特在100米赛道上，他比你早跑2秒，你不可能超过。你唯一的机会就是跑另外一条路径。

在这个思路的指引下，我们开始看其他技术路线。就是扔掉所有以前的架构依赖，回到本质，从第一性原理看AI计算本身还有什么机会。我在读研究生时，我导师高光荣教授是数据流架构的奠基人之一，他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是：你要做的是计算，冯·诺依曼架构相当于帮人类做一个中介去实现计算，中间有翻译层，这个翻译帮助人类更好地去编程，但这个中介和翻译会降低效率。如果回到计算的本质，可以把中间的翻译拿掉。当然的确很少有企业做过实践，中国也是如此。所以大家看到的机会都是一样的，关键是如何极致地解决这个问题，从第一性原理来倒推。我们四年前定了这样的目标，并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要？因为要做到这一点，只有硬件团队不够，还必须有模型团队。我们设计芯片时，软件团队、模型团队坐在一起分析。可能跟其他公司不一样，我们是这几个团队坐在一起，而且大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上，我们希望以某一个核心的、有挑战的目标为中心，围绕它构建项目团队。实际团队是分开的，但像一团篝火一样，有硬件的人、有软件的人、有模型的人，大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。它不是一个硬的组织隔离，而是一种软的合作机制。

Q：自研芯片背后需要什么条件？比如销量、营收、研发投入。目前自动驾驶迭代速度很快，芯片要持续迭代的话，需要什么样的条件？

谢炎：如果你的业务需要自研核心技术，比如芯片，先期投入的确不小，可能一年要好几亿。

第一个条件是达到一定的营收规模。对车企来说，营收规模一年1000亿以上，研发投入至少10%，就有大几十亿到上百亿，每年投钱研发芯片是可以的。

第二个条件是，你研发芯片解决的问题，要能让你的产品能力更强。回到十年前，一些房地产公司也做高科技，问题是它投入的高科技对主营业务帮助非常小。比如我是房地产公司去投芯片，这个意义不大，芯片对卖房子没帮助，对未来也没帮助，更多是象征意义，而没有实际意义。

这里有个误区，很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的智驾芯片，比如Livis是2颗马赫M100，加起来800平方毫米。而一部高端手机芯片大概100平方毫米，所以一辆车的智驾芯片相当于8台手机的芯片面积。你会说车的量比较少，但成本不仅仅跟数量有关，也跟面积有关。这样算下来，大几十万辆车需要的晶圆面积非常大，完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗，但其实每颗面积非常小。不能脱离背景只谈量，这是不完整的。

我们在马赫M100立项时算过，做这个芯片不会让公司的效益变差，而是会变好。我们不是为了证明自己能做而做，不仅性能要做到最好，在成本上也要帮助公司省钱。

Q：昨天理想说是全世界性能最强的AI芯片，引起了很大的讨论，小鹏、蔚来、比亚迪都说自己很领先。跟这些友商相比，理想的领先性体现在哪些方面，或者被市场低估了哪些方面？

谢炎：我们为什么敢说自己是世界第一呢？因为我们跟市面上标准可以获得的芯片做对比，它是英伟达Thor-U三倍的性能。我们可以拿出Benchmark（基准测试），甚至可以让第三方做测试。我们也跟一个第三方测试机构聊过，测试机构说其它家都不愿意拿出来做比较。如果要公平地比较，可以拿到一个公平、综合的Benchmark去做合适的比较。

对于上车时间我们已经做得很快了。做芯片基本要5年时间，而我们基本快4年年时间就上车，而且把所有模型都跑起来，这已经很快了。

至于在过程中遇到的困难，肯定是有的。软件、编译、模型适配，这都是有很多困难在里面，而且这些坑只有你做了才知道。昨天有些同行说，看了我们的论文以后，说你们把论文写得那么详细，别人家拿你的论文是不是就可以复刻。但我们不担心，因为把这个架构要落地是非常长的距离，而且中间有很多坑，只有真正做才知道，才能迈过去，迈不过去，就停在那儿了。

Q：现在的大算力芯片方案，比如英伟达、小鹏、理想自研的这些，都没有做芯片级的舱驾融合，反倒是高通在低算力的骁龙8650上做了这件事，这是为什么？

谢炎：从本质上讲，舱和驾是两个独立系统。特别是对高端的L3往L4走，智驾需要一个更高确定性的系统，内存是专属、计算资源是专属，这时融合的意义就小了很多。因为资源不能实时切换，实时切换会降低确定性。如果变成越来越独占的方向，融合的价值就不大了——你只是把芯片拼在一起，但资源还是两份，并不会带来成本的降低，甚至会影响效率。

对低端来说，L2对切换的实时性要求不高，有一部分确实可以有限地共享，但我认为也不多，未来会证明这一点，因为今天只是个概念。

我认为真正的舱驾融合是舱需要的资源和驾需要的资源在物理上完全是一块，可以动态共享。不是形式上放在一起，但实际切成两半，这不叫融合。融合就像你的笔记本跑浏览器和其他应用程序，笔记本的内存完全可以共用，一会儿跑这个，一会儿跑那个。你看现在那些舱驾融合系统，它肯定还是分开的，今天做不到一会儿跑这个一会儿跑那个。如果做到的话，融合的价值确实很大，但做不到的话，只是减少一定的成本——因为把两个芯片放成一个芯片，晶体管数目也许不变，只是省了一次封装的成本。对中低端芯片来说这部分钱可以省，但也省不了太多。我的观点是，越往后走智驾越来越高端，舱驾融合这件事可能意义并不大。

Q：马赫VLA，我理解这是一套技术体系而不是一个单独的模型。比如Mind-Edge是端侧的、服务于智能座舱的模型。现在的智能驾驶模型中还有“L”的部分吗？

詹锟：现在自动驾驶的架构，只要往后面走，大家都会有一个共同的趋势，就是把VLA（视觉-语言-行为模型）和World Model（世界模型）整合在一起。从长远来看，没有谁不往这个方向走。而且你说的Language问题，无论做VLA还是World Model，里面的Prompt（提示）都要用Language。所以一定有Language，只是Language怎么用的问题。

我觉得更本质的问题是马赫VLA到底是Language Based Model还是Vision Based Model？昨天说的机器智能和语言智能，我觉得这两个可能正好是两个不同方向的base。机器智能来说，我觉得Vision Based（基于视觉）是更合理的，它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用，对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。马斯克一直在说要把Reasoning（推理）上车，虽然还没上，但大家都在往这方向做，而且Language一直是我们很重要的一个中间监督项。

但对于语言智能来说，Language Based（基于语言）永远是最好的，没有哪个语言智能是用Vision Based的。但要不要Vision（视觉）？那必须要，否则怎么能看到车内你拿了手机、拿了电脑呢？所以这个问题就是你以哪个为base。从长远来看，基于Vision和Language原生的基础模型，可能是长远的未来趋势。

Q：基座模型怎么从车扩展到其他终端？它的瓶颈是数据、运控，还是模型本身的范式？所以能不能真正统一车和机器人这两种不同的终端形态？

詹锟：我认为这个gap（差距）很大。切换到机器人的导航没问题，但如果切换到操作上，模型不是那么一样。或者说Foundation（基座）只是一个非常基本的，它后面一定是千差万别，这一点要确认。

车里面包含了Language语言智能，这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型（Gemini Robotics-ER），就是来自Gemini的，把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。一是具身交互，我们跟它沟通、交流、思考，让它做任务规划。二是移动，自动驾驶能不能从A点到B点，无碰撞、安全、高效地到达目的地。三是操作，狭义的具身，是一个独立任务，是开放性场景，业界很多人都在探索，包括硬件、数据都是不完善的。这三个任务任意的组合，都会形成非常有价值的商业模式与价值形态。

这是我们的想法，我们的车有机会把这三点都涵盖。涵盖以后，我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座？我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用？我觉得比较难。

但它作为基座，提供海量的数据支持、训练环境，能提供Foundation Model（基座模型）的baseline（基线），帮助你快速做下个任务的收敛，这是很有帮助的。所以这也是我们成立基座模型团队的原因，我们会有基座来支撑各个业务，但每个业务有自己的特点。

Q：3DViT我们大概是什么时候开始研发这个技术路径的？3DViT目前能达到跟激光雷达一样的效果吗？

詹锟：3DViT来自于去年的CVPR的论文VGGT（VGGT: Visual Geometry Grounded Transformer），这证明了2D视觉也能学会完整的3D空间结构，证明了Scaling Law在3D空间的全新可行性。

第二，之前团队一直在往这方面探索和尝试，中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果，我们去年才正式从研究探索阶段转入产品开发阶段。在这个过程中，我们把它变成一个真实项目，放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT，但有了会更好。3D ViT后续还有更大的改进与优化空间，这也是追上FSD V14很重要的一环，中间的视觉信息能不能表征清楚，这是非常关键的。

3D ViT是一个纯视觉方案，它不依赖于激光雷达。它基于视觉，把空间建模成带有色彩信息的全彩点云，基于更强的视觉编码器和空间视觉表征，做到更丰富的3D理解。

关于帧率和激光雷达效果，这其实是两个问题。高帧率主要是提高反应速度，因为激光雷达帧率有限，只有10Hz，视觉能做到30Hz甚至更高，我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果？我们是有信心的。因为我们最新所有的车都标配了激光雷达，激光雷达对纯视觉方案有非常强的监督和校验作用。一定要达到跟激光雷达完全一样的精度吗？不一定。特别是看远处时，人也分不清大货车是20.8米还是19.8米。但在极近处，人对深度的感知非常敏感，我们也是如此，在极近处能达到激光雷达的水平，这是上线的标准。另外，理解空间以后更重要的是做出更拟人的行为决策。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.