2024年6月,元戎启行CEO周光乘坐测试车经过一处红绿灯,看到了一个不起眼的交通牌——「车辆左转不受灯控」,但测试车依旧停下等待红灯转绿。
在后方不断传来的鸣笛催促声中,周光意识到:即便是当时的端到端模型,也无法充分理解道路环境与通行条件。而且,许多人类能轻易察觉的潜在风险,系统却无法感知。
![]()
同年9月,周光公开表示:“现在的VLM(端到端1.0),就相当于一个带着学员的教练,通过语言的形式,告诉学员左转、减速…而VLA,则是换成教练亲自开车。”
也是从这时起,元戎启行将VLA模型提升为公司级研发项目。并在反复的测试中,验证了VLA「让机器读懂物理世界」的神奇能力,认定它会是Corner case泥潭中的一条新航道。
到了昨日(8月26日),元戎启行发布全新一代辅助驾驶平台——DeepRoute IO 2.0,该平台搭载自研的VLA(Vision-Language-Action)模型,融合视觉感知、语义理解与动作决策三大核心能力,对比传统端到端模型,VLA模型更擅长应对复杂路况,可谓实现了断代式突破。
![]()
如何让AI懂得「害怕」?
尽管如今的AI技术路线仍没有标准答案,但是在包括汽车在内的整个具身智能行业中,VLA已经成为了代表技术能力和落地可行性的关键路径。
今年,小鹏、理想相继宣布VLA的量产消息。而元戎启行也表示,在基于DeepRoute IO 2.0平台的5个定点合作项目中,首批量产车即将进入市场。
据了解,DeepRoute IO 2.0可以支持激光雷达与纯视觉双版本,率先适配英伟达Drive Thor芯片,后续将拓展至更多平台。
![]()
“在DeepRoute IO 2.0中,我们让AI学会了‘害怕’——害怕是生物进化出的保护机制,AI也应当具备对风险的敬畏之心。”周光表示,防御性驾驶是VLA的核心目标。只有让AI学会害怕,才是对安全真正的重视。
之所以反复强调「防御性驾驶」,是因为他深知CNN或BEV端到端系统的瓶颈所在——看不见等于不存在。
![]()
他表示,人类司机会凭借对空间遮挡关系的理解,采取谨慎策略通过复杂场景。例如,当看到人车混行的桥洞、无信号灯的路口,或者视线被遮挡严重时,人类是一定会减速的。
这意味着,辅助驾驶系统必须提升对高级语义和空间关系的理解能力,而上一代端到端无法做到这一点,因为BEV是难以学习空间理解的。
![]()
“VLA的下限,就已经是端到端1.0的上限了”。在发布会上,他总结了VLA模型的4大功能:空间语义理解、异形障碍物识别、文字类引导牌理解、记忆语音控车。
比起许多用户认为非常炫酷的「语音交互」功能,周光认为VLA主动预判、规避风险的作用更为重要。
“语音控车功能甚至通过Rule-based就能实现,而VLA架构真正的难点,是对场景的高级语义推理,这也是其核心进化方向——CoT思维链。”
长时序分析,深层次推理
自去年开始,周光就已指出,VLA的关键特性就是思维链:“你需要通过多重信息来决定如何通过复杂场景,也需要不断地与其他车辆博弈、交互,这种复杂度是规则库无法应对的。”
他表示,短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。而VLA就是因为能够进行长时序上下文分析,所以能处理更复杂的路况,完成更深层次的推理。
![]()
“现实驾驶环境中存在大量文字信息,例如交通标志、临时路牌等。有些是印刷在道路上的静态文字,可借助地图数据;但还有很多是临时设置,必须通过实时感知和理解才能正确处理。语言理解能力可让车辆更好地与现实世界交互,为用户带来更多便利。”
例如, VLA模型能通过文本等看懂潮汐车道、公交车道、临时限行区域等道路标志,并从多重信息中确认通行规则。
基于此,DeepRoute IO 2.0也将拥有更高阶的思考能力,能够理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。
除了上述功能外,VLA还具备更高的异形障碍物识别水平,并拥有记忆语音控车功能。其中,后者不仅能支持「快一点/慢一点」等基础指令,还能记忆用户偏好,实现个性化体验。
![]()
通过实际体验,我们可以发现DeepRoute IO 2.0在道路两侧停满车辆、存在「鬼探头」风险时,降速缓行;并在经过存在盲区的桥洞时,同样比较严谨。另外,对于多种载货两轮/三轮车辆,系统也能够较好地识别。
周光认为,尽管目前的VLA模型仍处于「幼年期」,但其上限远高于端到端方案:“新一代架构需要新一代芯片支持,这不是CNN时代可比的。”
算力枷锁终将瓦解
目前,「成本」经常被认为是VLA上车的阻碍之一。而周光却表示,DeepRoute IO 2.0不仅可面向多种主流乘用车平台开展定制化部署,可适配的车型更是低至15万元级别,甚至10万元级别的车型通过优化也有机会搭载。
“从传感器方面来看,11个摄像头正成为主流配置;同时行业整体都在提升算力,下一代芯片将达到5000TOPS,甚至10000TOPS级别也不远了。”
他表示,VLA与端到端1.0的主要成本差异在于芯片,其余部分基本一致。而芯片成本取决于制程工艺,目前千T级芯片算力时代已经到来,例如特斯拉2500TOPS芯片,双芯片即可实现5000TOPS。
如今,元戎启行的量产车辆已接近10万台,获得超过10款车型的定点合作,预计第四季度的交付量还将进一步提升。
交付量的扩大,往往意味着要面临更严格的市场监督,任何问题都会被放大。在这一节点,元戎启行正式步入「2.0阶段」,打通上一代端到端的瓶颈,让辅助驾驶系统更加可靠,体验感更强。
周光预计, Thor+VLA能带来的直观效果,是绝大多数人都会认为这样的系统「是好用的」,城市接管可能达到百公里起步的水平。
![]()
“真正的智能驾驶必须依赖大模型,未来必将全面转向基于GPT架构的端到端系统。回顾大模型的发展,它经历了从通才到专家系统的演进:GPT-4属于‘通才’,如今进入强化学习阶段,模型正变得更专业、更可靠。”
他认为,虽然技术发展没有标准答案,但实际上每个关键阶段都无法跳过:从有图、无图、端到端到VLA模型,整个发展过程必不可少,不可能完全绕过。同时,他也呼吁行业应关注大模型整体发展,避免局限在自动驾驶领域。
“技术发展需要时间,时间将验证一切。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.