元戎启行周光：VLA的下限，已超过端到端1.0的上限|io|时序|vla|thor|周光(晋朝)

元戎启行周光：VLA的下限，已超过端到端1.0的上限

2025-08-27 12:30:39　来源: RoboX

北京举报

分享至

2024年6月，元戎启行CEO周光乘坐测试车经过一处红绿灯，看到了一个不起眼的交通牌——「车辆左转不受灯控」，但测试车依旧停下等待红灯转绿。

在后方不断传来的鸣笛催促声中，周光意识到：即便是当时的端到端模型，也无法充分理解道路环境与通行条件。而且，许多人类能轻易察觉的潜在风险，系统却无法感知。

同年9月，周光公开表示：“现在的VLM（端到端1.0），就相当于一个带着学员的教练，通过语言的形式，告诉学员左转、减速…而VLA，则是换成教练亲自开车。”

也是从这时起，元戎启行将VLA模型提升为公司级研发项目。并在反复的测试中，验证了VLA「让机器读懂物理世界」的神奇能力，认定它会是Corner case泥潭中的一条新航道。

到了昨日（8月26日），元戎启行发布全新一代辅助驾驶平台——DeepRoute IO 2.0，该平台搭载自研的VLA（Vision-Language-Action）模型，融合视觉感知、语义理解与动作决策三大核心能力，对比传统端到端模型，VLA模型更擅长应对复杂路况，可谓实现了断代式突破。

如何让AI懂得「害怕」？

尽管如今的AI技术路线仍没有标准答案，但是在包括汽车在内的整个具身智能行业中，VLA已经成为了代表技术能力和落地可行性的关键路径。

今年，小鹏、理想相继宣布VLA的量产消息。而元戎启行也表示，在基于DeepRoute IO 2.0平台的5个定点合作项目中，首批量产车即将进入市场。

据了解，DeepRoute IO 2.0可以支持激光雷达与纯视觉双版本，率先适配英伟达Drive Thor芯片，后续将拓展至更多平台。

“在DeepRoute IO 2.0中，我们让AI学会了‘害怕’——害怕是生物进化出的保护机制，AI也应当具备对风险的敬畏之心。”周光表示，防御性驾驶是VLA的核心目标。只有让AI学会害怕，才是对安全真正的重视。

之所以反复强调「防御性驾驶」，是因为他深知CNN或BEV端到端系统的瓶颈所在——看不见等于不存在。

他表示，人类司机会凭借对空间遮挡关系的理解，采取谨慎策略通过复杂场景。例如，当看到人车混行的桥洞、无信号灯的路口，或者视线被遮挡严重时，人类是一定会减速的。

这意味着，辅助驾驶系统必须提升对高级语义和空间关系的理解能力，而上一代端到端无法做到这一点，因为BEV是难以学习空间理解的。

“VLA的下限，就已经是端到端1.0的上限了”。在发布会上，他总结了VLA模型的4大功能：空间语义理解、异形障碍物识别、文字类引导牌理解、记忆语音控车。

比起许多用户认为非常炫酷的「语音交互」功能，周光认为VLA主动预判、规避风险的作用更为重要。

“语音控车功能甚至通过Rule-based就能实现，而VLA架构真正的难点，是对场景的高级语义推理，这也是其核心进化方向——CoT思维链。”

长时序分析，深层次推理

自去年开始，周光就已指出，VLA的关键特性就是思维链：“你需要通过多重信息来决定如何通过复杂场景，也需要不断地与其他车辆博弈、交互，这种复杂度是规则库无法应对的。”

他表示，短期记忆依靠视频帧，长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史，语言是对现实的高效压缩。而VLA就是因为能够进行长时序上下文分析，所以能处理更复杂的路况，完成更深层次的推理。

“现实驾驶环境中存在大量文字信息，例如交通标志、临时路牌等。有些是印刷在道路上的静态文字，可借助地图数据；但还有很多是临时设置，必须通过实时感知和理解才能正确处理。语言理解能力可让车辆更好地与现实世界交互，为用户带来更多便利。”

例如， VLA模型能通过文本等看懂潮汐车道、公交车道、临时限行区域等道路标志，并从多重信息中确认通行规则。

基于此，DeepRoute IO 2.0也将拥有更高阶的思考能力，能够理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。

除了上述功能外，VLA还具备更高的异形障碍物识别水平，并拥有记忆语音控车功能。其中，后者不仅能支持「快一点/慢一点」等基础指令，还能记忆用户偏好，实现个性化体验。

通过实际体验，我们可以发现DeepRoute IO 2.0在道路两侧停满车辆、存在「鬼探头」风险时，降速缓行；并在经过存在盲区的桥洞时，同样比较严谨。另外，对于多种载货两轮/三轮车辆，系统也能够较好地识别。

周光认为，尽管目前的VLA模型仍处于「幼年期」，但其上限远高于端到端方案：“新一代架构需要新一代芯片支持，这不是CNN时代可比的。”

算力枷锁终将瓦解

目前，「成本」经常被认为是VLA上车的阻碍之一。而周光却表示，DeepRoute IO 2.0不仅可面向多种主流乘用车平台开展定制化部署，可适配的车型更是低至15万元级别，甚至10万元级别的车型通过优化也有机会搭载。

“从传感器方面来看，11个摄像头正成为主流配置；同时行业整体都在提升算力，下一代芯片将达到5000TOPS，甚至10000TOPS级别也不远了。”

他表示，VLA与端到端1.0的主要成本差异在于芯片，其余部分基本一致。而芯片成本取决于制程工艺，目前千T级芯片算力时代已经到来，例如特斯拉2500TOPS芯片，双芯片即可实现5000TOPS。

如今，元戎启行的量产车辆已接近10万台，获得超过10款车型的定点合作，预计第四季度的交付量还将进一步提升。

交付量的扩大，往往意味着要面临更严格的市场监督，任何问题都会被放大。在这一节点，元戎启行正式步入「2.0阶段」，打通上一代端到端的瓶颈，让辅助驾驶系统更加可靠，体验感更强。

周光预计， Thor+VLA能带来的直观效果，是绝大多数人都会认为这样的系统「是好用的」，城市接管可能达到百公里起步的水平。

“真正的智能驾驶必须依赖大模型，未来必将全面转向基于GPT架构的端到端系统。回顾大模型的发展，它经历了从通才到专家系统的演进：GPT-4属于‘通才’，如今进入强化学习阶段，模型正变得更专业、更可靠。”

他认为，虽然技术发展没有标准答案，但实际上每个关键阶段都无法跳过：从有图、无图、端到端到VLA模型，整个发展过程必不可少，不可能完全绕过。同时，他也呼吁行业应关注大模型整体发展，避免局限在自动驾驶领域。

“技术发展需要时间，时间将验证一切。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

元戎启行周光：VLA的下限，已超过端到端1.0的上限

前阿里人亲述: “经济上行”期双11什么样

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

消磨你上千小时的足球游戏，走过第20年

再王珞丹和白百何 明白两人"差别"在哪

段永平最新访谈:聊企业经营 投资理念

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

这些知识女性的衣橱，完全不输穿搭博主

江西财经大学2026届保研487人，软件工程60人

秋冬咳嗽难受？这1止咳绝招，比吃药管用！

云游安徽 | 凌滩玉魄淬千年，诗意钢城马鞍山

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

1家5口被邻居杀害:3岁孩子都没放过行凶全程仅2分钟

1家5口被邻居杀害:3岁孩子都没放过行凶全程仅2分钟

再王珞丹和白百何明白两人"差别"在哪

段永平最新访谈:聊企业经营投资理念

7座皆独立座椅/新增5座版体验第三代吉利豪越L