网易首页 > 网易号 > 正文 申请入驻

元戎启行周光:VLA的下限,已超过端到端1.0的上限

0
分享至

2024年6月,元戎启行CEO周光乘坐测试车经过一处红绿灯,看到了一个不起眼的交通牌——「车辆左转不受灯控」,但测试车依旧停下等待红灯转绿。

在后方不断传来的鸣笛催促声中,周光意识到:即便是当时的端到端模型,也无法充分理解道路环境与通行条件。而且,许多人类能轻易察觉的潜在风险,系统却无法感知。



同年9月,周光公开表示:“现在的VLM(端到端1.0),就相当于一个带着学员的教练,通过语言的形式,告诉学员左转、减速…而VLA,则是换成教练亲自开车。”

也是从这时起,元戎启行将VLA模型提升为公司级研发项目。并在反复的测试中,验证了VLA「让机器读懂物理世界」的神奇能力,认定它会是Corner case泥潭中的一条新航道。

到了昨日(8月26日),元戎启行发布全新一代辅助驾驶平台——DeepRoute IO 2.0,该平台搭载自研的VLA(Vision-Language-Action)模型,融合视觉感知、语义理解与动作决策三大核心能力,对比传统端到端模型,VLA模型更擅长应对复杂路况,可谓实现了断代式突破。



如何让AI懂得「害怕」?

尽管如今的AI技术路线仍没有标准答案,但是在包括汽车在内的整个具身智能行业中,VLA已经成为了代表技术能力和落地可行性的关键路径。

今年,小鹏、理想相继宣布VLA的量产消息。而元戎启行也表示,在基于DeepRoute IO 2.0平台的5个定点合作项目中,首批量产车即将进入市场。

据了解,DeepRoute IO 2.0可以支持激光雷达与纯视觉双版本,率先适配英伟达Drive Thor芯片,后续将拓展至更多平台。



“在DeepRoute IO 2.0中,我们让AI学会了‘害怕’——害怕是生物进化出的保护机制,AI也应当具备对风险的敬畏之心。”周光表示,防御性驾驶是VLA的核心目标。只有让AI学会害怕,才是对安全真正的重视。

之所以反复强调「防御性驾驶」,是因为他深知CNN或BEV端到端系统的瓶颈所在——看不见等于不存在。



他表示,人类司机会凭借对空间遮挡关系的理解,采取谨慎策略通过复杂场景。例如,当看到人车混行的桥洞、无信号灯的路口,或者视线被遮挡严重时,人类是一定会减速的。

这意味着,辅助驾驶系统必须提升对高级语义和空间关系的理解能力,而上一代端到端无法做到这一点,因为BEV是难以学习空间理解的。



“VLA的下限,就已经是端到端1.0的上限了”。在发布会上,他总结了VLA模型的4大功能:空间语义理解、异形障碍物识别、文字类引导牌理解、记忆语音控车。

比起许多用户认为非常炫酷的「语音交互」功能,周光认为VLA主动预判、规避风险的作用更为重要。

“语音控车功能甚至通过Rule-based就能实现,而VLA架构真正的难点,是对场景的高级语义推理,这也是其核心进化方向——CoT思维链。”

长时序分析,深层次推理

自去年开始,周光就已指出,VLA的关键特性就是思维链:“你需要通过多重信息来决定如何通过复杂场景,也需要不断地与其他车辆博弈、交互,这种复杂度是规则库无法应对的。”

他表示,短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。而VLA就是因为能够进行长时序上下文分析,所以能处理更复杂的路况,完成更深层次的推理。



“现实驾驶环境中存在大量文字信息,例如交通标志、临时路牌等。有些是印刷在道路上的静态文字,可借助地图数据;但还有很多是临时设置,必须通过实时感知和理解才能正确处理。语言理解能力可让车辆更好地与现实世界交互,为用户带来更多便利。”

例如, VLA模型能通过文本等看懂潮汐车道、公交车道、临时限行区域等道路标志,并从多重信息中确认通行规则。

基于此,DeepRoute IO 2.0也将拥有更高阶的思考能力,能够理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。

除了上述功能外,VLA还具备更高的异形障碍物识别水平,并拥有记忆语音控车功能。其中,后者不仅能支持「快一点/慢一点」等基础指令,还能记忆用户偏好,实现个性化体验。



通过实际体验,我们可以发现DeepRoute IO 2.0在道路两侧停满车辆、存在「鬼探头」风险时,降速缓行;并在经过存在盲区的桥洞时,同样比较严谨。另外,对于多种载货两轮/三轮车辆,系统也能够较好地识别。

周光认为,尽管目前的VLA模型仍处于「幼年期」,但其上限远高于端到端方案:“新一代架构需要新一代芯片支持,这不是CNN时代可比的。”

算力枷锁终将瓦解

目前,「成本」经常被认为是VLA上车的阻碍之一。而周光却表示,DeepRoute IO 2.0不仅可面向多种主流乘用车平台开展定制化部署,可适配的车型更是低至15万元级别,甚至10万元级别的车型通过优化也有机会搭载。

“从传感器方面来看,11个摄像头正成为主流配置;同时行业整体都在提升算力,下一代芯片将达到5000TOPS,甚至10000TOPS级别也不远了。”

他表示,VLA与端到端1.0的主要成本差异在于芯片,其余部分基本一致。而芯片成本取决于制程工艺,目前千T级芯片算力时代已经到来,例如特斯拉2500TOPS芯片,双芯片即可实现5000TOPS。

如今,元戎启行的量产车辆已接近10万台,获得超过10款车型的定点合作,预计第四季度的交付量还将进一步提升。

交付量的扩大,往往意味着要面临更严格的市场监督,任何问题都会被放大。在这一节点,元戎启行正式步入「2.0阶段」,打通上一代端到端的瓶颈,让辅助驾驶系统更加可靠,体验感更强。

周光预计, Thor+VLA能带来的直观效果,是绝大多数人都会认为这样的系统「是好用的」,城市接管可能达到百公里起步的水平。



“真正的智能驾驶必须依赖大模型,未来必将全面转向基于GPT架构的端到端系统。回顾大模型的发展,它经历了从通才到专家系统的演进:GPT-4属于‘通才’,如今进入强化学习阶段,模型正变得更专业、更可靠。”

他认为,虽然技术发展没有标准答案,但实际上每个关键阶段都无法跳过:从有图、无图、端到端到VLA模型,整个发展过程必不可少,不可能完全绕过。同时,他也呼吁行业应关注大模型整体发展,避免局限在自动驾驶领域。

“技术发展需要时间,时间将验证一切。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克最新战报!赵心童2-0领先12冠王,或会师世界第2冲4强?

斯诺克最新战报!赵心童2-0领先12冠王,或会师世界第2冲4强?

刘姚尧的文字城堡
2025-11-11 23:41:38
日本知名华裔议员用中文抗议我国领事的“斩首”言论

日本知名华裔议员用中文抗议我国领事的“斩首”言论

随波荡漾的漂流瓶
2025-11-12 17:10:09
面相全变了!再看41岁王珞丹和41岁白百何,才明白两人"差别"在哪

面相全变了!再看41岁王珞丹和41岁白百何,才明白两人"差别"在哪

娱乐圈笔娱君
2025-11-12 14:20:47
下一个乌克兰出现?俄曝光绝密情报:西方要将中俄老朋友拉入北约

下一个乌克兰出现?俄曝光绝密情报:西方要将中俄老朋友拉入北约

文史旺旺旺
2025-11-11 21:18:09
震惊!某家族群里,侄子教训叔叔了,称其得到的爱最多,理应付出

震惊!某家族群里,侄子教训叔叔了,称其得到的爱最多,理应付出

火山诗话
2025-11-12 15:30:51
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

枫尘余往逝
2025-11-11 02:03:42
沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

鱼缸里的假山
2025-11-11 11:48:49
重庆通报:三名干部被查处

重庆通报:三名干部被查处

鲁中晨报
2025-11-12 20:11:02
特朗普6字定调台湾问题,赖清德就统一表态,大陆:绝不放弃武力

特朗普6字定调台湾问题,赖清德就统一表态,大陆:绝不放弃武力

文史旺旺旺
2025-11-11 21:18:09
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

手机中国
2025-11-12 15:46:19
全运会首金诞生!CCTV直播:王曼昱大战钱天一 陈梦遭遇何卓佳

全运会首金诞生!CCTV直播:王曼昱大战钱天一 陈梦遭遇何卓佳

好乒乓
2025-11-12 10:28:18
官宣,正式被裁!再见了,浓眉哥

官宣,正式被裁!再见了,浓眉哥

风风拒绝焦虑
2025-11-12 14:53:30
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
中金资本董事长单俊葆被查,姐姐单俊芬的生意显形

中金资本董事长单俊葆被查,姐姐单俊芬的生意显形

法经网
2025-11-12 10:05:31
库里疑似垫脚被吹一级恶犯!1189场0恶犯纪录终结:摇头不敢信

库里疑似垫脚被吹一级恶犯!1189场0恶犯纪录终结:摇头不敢信

罗说NBA
2025-11-12 10:13:49
连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

潮鹿逐梦
2025-11-11 16:17:12
今晚19点35,U22国足vs越南,王钰栋缺阵,或遭1-0爆冷,央视直播

今晚19点35,U22国足vs越南,王钰栋缺阵,或遭1-0爆冷,央视直播

大秦壁虎白话体育
2025-11-12 08:00:10
欧洲热议“熊猫”列车亮相奥地利,奥前总理克恩:中国“太重要、太庞大”

欧洲热议“熊猫”列车亮相奥地利,奥前总理克恩:中国“太重要、太庞大”

环球网资讯
2025-11-12 07:02:05
丈夫驻边20年不回家,我带着孩子千里探亲,部队:他压根没入伍

丈夫驻边20年不回家,我带着孩子千里探亲,部队:他压根没入伍

红豆讲堂
2025-10-14 16:22:44
2025-11-12 21:43:00
RoboX
RoboX
关注智能汽车、机器人在内的具身智能前沿科技
194文章数 2关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

时尚
教育
亲子
本地
军事航空

这些知识女性的衣橱,完全不输穿搭博主

教育要闻

江西财经大学2026届保研487人,软件工程60人

亲子要闻

秋冬咳嗽难受?这1止咳绝招,比吃药管用!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版