网易首页 > 网易号 > 正文 申请入驻

周光最新海外演讲:VLA的关键挑战,以及仿真数据的短板

0
分享至

1月22日,在第17届日本国际汽车工业技术展上,元戎启行CEO周光发表了一场演讲,对VLA模型(Vision Language Action Model,视觉语言动作模型)的特点进行了简要介绍,并宣布该公司已与某头部车企达成量产合作,共同推出搭载VLA模型的智能驾驶汽车,该车配备英伟达Thor芯片,将于今年投入消费者市场。

RoboX将本次周光的演讲内容进行了翻译和整理,供大家参考。

高精地图就像「作弊」

“高精度地图虽然在十年前非常有用,能帮助车辆定位,但这种方式更像是一种‘作弊’,因为它只能在限定范围内规避一定问题。”周光表示,最典型的案例就是传统基于规则的Robotaxi,至今仍只能在特定区域运营。

另外,自然还有高精度地图一直被诟病的「高成本」、「难以保持鲜度」等问题。

相比来看,无图化的「端到端」方案的优势在于:

  • 实时感知和重建:车辆能够实时感知周围环境,并根据感知结果做出决策,而不是依赖于预先绘制的高精度地图。这使得车辆能够适应各种突发情况和道路变化。
  • 处理长尾情况:传统基于规则的自动驾驶系统往往难以处理长尾情况,因为这些情况通常没有在规则中明确列出。而端到端解决方案则能够通过学习大量数据来适应这些情况。
  • 可扩展性和泛化性:由于基于神经网络,端到端解决方案可以很容易地扩展到数百万辆车上,并且具有很强的泛化能力,可以在全球范围内使用。

VLA,将让智驾更强大

周光称,在过去的两年里,自动驾驶技术的进步远远超过了过去的20年,尤其是在结合了大语言模型之后。

2022年,元戎启行(以下简称「元戎」)不需要高精地图和高精定位,并将多个模块全部融合到一个通用感知网络中。该网络可以检测到3D动态障碍物和静态物体,例如地标、边界等等。

同年,元戎又开始使用深度学习方法来处理决策和规划,但那时性能还不够理想。

2023年,元戎进行了端到端的初步测试,并于2024年开始开发下一代端到端技术——视觉-语言-动作模型(VLA)。

“VLA与最新的生成式大模型相结合,让自动驾驶功能更强大。今年,这一新技术将被集成到量产车中,并实现交付。“周光说道。

他介绍称,传统的感知网络利用的是结构数据。而神经网络会使用原始向量,而且是高维向量,这些向量在神经模块之间传递信息,并通过超高带宽进行信息交换,避免信息丢失。

元戎的DeepRoute IO正是这样一个系统——IO代表输入和输出,即输入数据,输出控制命令,这意味着它是一个单一的神经网络。

传统方案与VLA、端到端的本质区别

“我认为VLA是端到端2.0。在第一代端到端的架构中,已经没有太多代码了。它就像神经网络或者大语言模型一样,从底端直接输入,并输出结果。”

要想搞清楚VLA方案,首先要搞清楚「输入、输出、视觉编码器、文本编码器,轨迹解码器」,以及它们如何工作。

周光解释称,所谓的「输入」,就是从摄像头、导航系统、地图等接收的「输入」信号。输入要通过两个编码器,文本编码器(text encoder)和视觉编码器(vision encoder)。

视觉编码器对图像进行编码,并从中提取高级特征;而文本编码器,更多代表着用户与汽车的交互。

“在传统方案中,会生成各类特征。虽然看起来简单,实际上它背后的网络复杂得多。它结合了文本特征等,然后通过模型进行输出。”

至于「输出」,是由轨迹解码器(trajectory decoder)把模型的输出转换成系统能理解的轨迹信号,它负责告诉用户接下来10秒,乃至30秒中,车辆会做什么,也就是给出带有速度和路径的轨迹。

同时,「文本解码器」也会解释下一步动作的原因。例如,“有两个行人正在试图过马路,车辆需要减速并等他们通过。”

相比之下,基于端到端技术的自动驾驶解决方案则更加高效,这种方案通过实时感知和重建世界,能够处理各种复杂和长尾的情况。

“由于它是基于神经网络的,因此具有很强的泛化能力,可以适应全球范围内的不同道路和环境。”

周光表示,在端到端技术加持下,轨迹解码器就像人类大脑一样工作,而不是像规则。

他介绍称,VLA的关键特性是「思维链」:“因为现实世界要复杂得多,规则库无法应对这种复杂度。你需要通过多重信息来决定如何通过复杂场景,也需要不断地与其他车辆博弈、交互。”

他为VLA的思维链举了个例子,例如潮汐车道,基于VLA的智能驾驶车辆,能通过文本等看懂可逆车道的道路标志,并从多重信息中确认此时的潮汐车道是否可行驶,并通过转向灯等与其他车辆交互,随即变换车道,进行转向,最终行驶至潮汐车道中。

这一系列动作都是使用VLA进行的,它可以利用类人的思维,通过对全局上下文的了解,去了解车道的情况,与其他车辆交互,并做出最优的、安全的决策。

在周光看来,VLA相比目前的端到端具备两点关键提升:

首先,它更具适应性,也就是VLA可以适应并处理复杂的现实世界场景;

其次,是透明度,也就是它会解释动作及轨迹原因,“传统的数据系统需要解释代码,但是作为人类,我可以自然解释操控原因,这就是高级推理。VLA正是具备了这样的高级推理,因为它采用了全局信息和长上下文(context)信息,它可以做出更好的决策并提高安全性。

VLA的关键挑战

然而,VLA技术仍然存在许多重大挑战。首当其冲的,自然还是数据,而且周光还强调了真实数据的重要性。

“真实世界的数据是不同的,它涵盖了大量的环境变化,例如闪电、天气等。这就是我们为什么使用真实世界数据的原因,因为合成数据无法完整覆盖这些变化。还有更重要的一点,就是合成数据缺乏关键状态。例如行人违规横穿马路等场景,是在模拟中是无法得到的。”

对于这点,周光认为,量产车的规模,决定了迭代的速度:“我们每个月出货量都在万台规模,拥有大量数据来开发VLA模型。在中国,我们在全国范围内进行测试,收集数据。由于中国各地的天气条件、不同城市都有差异,我们可以覆盖各种场景,并收集足够的数据用于训练。”

另外,「实时响应」也是一个很大的挑战。大模型需要数十亿量级的参数,以及数千种类型的计算。所以元戎选择与英伟达共同开发VLA模型,再加上元戎自己的推理引擎,可通过AI推理最大限度地提高模型性能。

“我们可以在100毫秒内对情况做出响应,这比人类还快。”

当周光提及近期在美国测试特斯拉FSD最新版本的感受时,他表示FSD的整体表现非常流畅、自然且可预测。

“但我也注意到了特斯拉数据的不足——美国湾区的车辆相比国内少得多,人流量、电动车的密度等都比中国低。如果想在中国部署这个系统,这些数据都是缺乏的。”

他认为,拥有足够的临界态数据,才意味着可以更好地和参与交通的其他车辆、行人进行交互。“我确信特斯拉也在使用相同的技术。”

周光表示,目前元戎正与多家主机厂进行量产合作,其中包括了SUV、乘用车和越野车等车型。

“去年,我们有三款车型实现量产,而今年会有超过10款,预计今年这些车型的产量将超过20万辆,甚至更多。”

周光提及,最近元戎与Smart建立了战略合作伙伴关系,同样涉及自动驾驶。而且,第一款使用元戎解决方案的MPV也将于今年第一季度上市。

预计在今年,元戎不仅会在量产汽车中部署VLA模型,还会使用这些技术探索Robotaxi。

“Robotaxi是商业逻辑,而不是一项技术。我认为Robotaxi应该使用端到端模型、使用VLA来运营。”他说道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,微信掀桌!2步接入龙虾,24小时聊天干活

刚刚,微信掀桌!2步接入龙虾,24小时聊天干活

智东西
2026-03-22 12:47:18
山姆员工被曝每天必须推荐3人升级会员,完不成就得写检讨

山姆员工被曝每天必须推荐3人升级会员,完不成就得写检讨

映射生活的身影
2026-03-22 11:49:03
当年杨虎城已被李宗仁释放,为何没有逃脱?只因这个人背后捅刀子

当年杨虎城已被李宗仁释放,为何没有逃脱?只因这个人背后捅刀子

老范谈史
2026-03-16 17:56:19
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
全网公认8种最难吃水果!网红扎堆卖,吃过3种都是狠人

全网公认8种最难吃水果!网红扎堆卖,吃过3种都是狠人

复转这些年
2026-03-21 18:37:36
张水华夺辞职后首冠,破赛会纪录揽4万奖金

张水华夺辞职后首冠,破赛会纪录揽4万奖金

老王谈跑步
2026-03-22 13:26:21
87年的李立群和胡因梦,注意看胡因梦的眼神,充满了欣赏

87年的李立群和胡因梦,注意看胡因梦的眼神,充满了欣赏

喜文多见01
2026-03-19 15:51:54
1983年我军战士1人独守猫耳洞1年,归队后上级问:同志,你是谁?

1983年我军战士1人独守猫耳洞1年,归队后上级问:同志,你是谁?

南书房
2026-01-27 15:20:03
宋太祖赵匡胤是不是弟弟赵光义弑杀的,根据10条信息来推论

宋太祖赵匡胤是不是弟弟赵光义弑杀的,根据10条信息来推论

北梦一
2026-03-18 10:40:03
马龙把刘国梁的老底抖出来了,王励勤真该好好听听

马龙把刘国梁的老底抖出来了,王励勤真该好好听听

观察鉴娱
2026-03-22 09:43:07
理想高管:理想L9 Livis的800V全主动悬架难度非常大 国内没有一家供应商能做出来

理想高管:理想L9 Livis的800V全主动悬架难度非常大 国内没有一家供应商能做出来

快科技
2026-03-22 10:41:03
楼市,拐点已来?聪明的钱已经行动了

楼市,拐点已来?聪明的钱已经行动了

地产观点
2026-03-22 12:52:09
湖南14岁男生冲刺中考体育猛练2小时游泳,被确诊为横纹肌溶解症;医生:体育备考切忌暴力开练

湖南14岁男生冲刺中考体育猛练2小时游泳,被确诊为横纹肌溶解症;医生:体育备考切忌暴力开练

环球网资讯
2026-03-22 10:29:06
天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

天津女博主发布“征婚贴”,宣称想结婚!网友:估计是债务要暴雷

火山詩话
2026-03-21 06:58:08
反以色列组织烧毁捷克一处生产以色列无人机的武器中心

反以色列组织烧毁捷克一处生产以色列无人机的武器中心

财联社
2026-03-21 20:04:04
朝鲜造潜艇被击沉!

朝鲜造潜艇被击沉!

烽火观天下
2026-03-20 11:41:26
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
爸把6套房全给弟弟,我举家搬去上海,过年他来电,我问:您哪位

爸把6套房全给弟弟,我举家搬去上海,过年他来电,我问:您哪位

匹夫来搞笑
2026-03-22 11:40:53
重庆谈判期间,戴季陶出言讥讽毛主席,毛主席的回复引起一片掌声

重庆谈判期间,戴季陶出言讥讽毛主席,毛主席的回复引起一片掌声

冰语历史
2026-03-08 12:45:26
细思极恐!林志玲被曝日本“拍片”?片段疯传全网,女神形象崩塌

细思极恐!林志玲被曝日本“拍片”?片段疯传全网,女神形象崩塌

八星人
2026-03-22 10:32:39
2026-03-22 15:07:00
RoboX
RoboX
关注智能汽车、机器人在内的具身智能前沿科技
234文章数 2关注度
往期回顾 全部

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

头条要闻

男子花2万多买"Made in USA"床垫 睡着睡着感觉不对劲

头条要闻

男子花2万多买"Made in USA"床垫 睡着睡着感觉不对劲

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

态度原创

家居
教育
数码
健康
房产

家居要闻

时空交织 空间绮梦

教育要闻

【投票1】认为三中今年的录取分数线是?

数码要闻

又一笔记本厂商Ninkear陷入CPU虚标争议,官方承诺调查

转头就晕的耳石症,能开车上班吗?

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

无障碍浏览 进入关怀版