![]()
烧了20亿,提前了两年
近期,小鹏汽车在广州新总部举办了今年的科技日,何小鹏向外界扔出一颗“重磅炸弹”:他们做出了“去语言”的第二代VLA方案。
VLA模型最早由谷歌AI公司Deepmind推出,主要用于机器人领域。相比于Chatgpt、Sora等视觉语言模型,VLA增加了与物理世界交互的动作能力(即“Action”),也就是说,它不仅可以理解周围环境,还能输出动作指令,因此逐渐被应用到智能驾驶领域。
除了小鹏汽车,理想汽车、元戎启行等头部车企和智驾供应商也在推行VLA技术架构,他们将VLA视为挑战特斯拉端到端大模型的“法宝”。
在过去几年中,小鹏汽车的智驾方案经历了几轮迭代,从最早的规则算法,到逐渐在感知、规划、控制等模块进行AI化尝试。
在此次科技日之前,小鹏就已经量产了由AI驱动的VLA智驾方案,并在城区智驾中取得了不错表现。
但小鹏汽车的团队,在推进VLA技术架构的时候也意识到了局限。
因为标准的VLA是将视觉信息转换为语言,再从语言通道学习人类的交通规则和开车方法,转化成为运动规则(包含轨迹和速度),这其中包含了两层转化过程。
“从第一性原理分析,这非常不好。”何小鹏提出,能否把看到的世界直接转化成运动规则?
因此,去年部署VLA模型的时候,小鹏就在琢磨,能否遵循第一性原理,把Language(语言环节)给“干掉”?这样就能直接从Vision到Action。
换句话说,从语言模型为核心,进化成以物理世界为核心,如此一来效率飞升,也将彻底解决延时和信息损耗的问题。
但这是一条还没有人走过的路。
大语言模型成熟可用,演进方向明确,去掉语言这根“拐杖”后,究竟能做成什么样,没人知道。
去年,小鹏汽车内部进行了多番讨论和决策,最终决定同时并行两套VLA的方案——一套是标准的VLA,另一套就是在去掉语言转译环节的VLA。
后者由当时刚加入不久的刘先明带队。
刘先明是机器学习与计算机视觉领域的前沿专家,他2016年博士毕业于伊利诺伊大学厄巴纳-香槟分校(UIUC),在去小鹏之前曾在Facebook(现Meta)、Cruise任职。
“去语言”的VLA立项时,内部几乎完全没有信心。但从理论上推演,这件事又是成立的,所以何小鹏还是给了团队大量的资源支持。
这并不容易。据何小鹏介绍,为了训练这个新模型,小鹏汽车有时一个月就得花上1亿,甚至更多,小鹏汽车CFO顾宏地看到每个月付的账单,都恨不得拍桌子。
转折点出现在今年二季度的某一天。
当时小鹏要开一个内部高管会,一两位来自自动驾驶部门的高P说“不参加了”,原因是模型没跑通,不好意思参会。
然而,就在会议召开的前一天,他们忽然在测试版本上发现了一个巨大的跳跃——
之前是完全不可用,但在某一个场景却显示出了效果。于是整个团队开始广泛尝试,试图跑通更多的场景。
自此,小鹏便停止了现有版本VLA技术的开发,同时加大了下一代VLA技术的投入。
据何小鹏介绍,第二代VLA光训练费就烧了20亿——这是过去一年里,小鹏汽车一个季度研发费用的水平。
今年10月9日,世界基座模型负责人刘先明接替李力耘,开始执掌小鹏汽车自动驾驶中心。
何小鹏对第二代VLA的评价很高,称它开始了在量产上的全新范式,并将小鹏自动驾驶的升级换代提前了两年。
“它能够处理很多极限场景。以前很多场景,用规则写好多年都解决不了,但对于第二代VLA来说,一下子就变成了基础的事情,而且它处理得非常丝滑。”
何小鹏在发布会上展示了几个测试场景,能够在一定程度上展现出第二代VLA的水平和潜力。
比如可以在两边各仅有3公分的极窄道路上蠕动通行,还能在十字路口红灯即将变绿时提前缓慢起步,甚至能识别交警手势、即刻停车……这些都是未曾训练过的复杂路况,但车都能展现出高度拟人的应对方式。
何小鹏宣布,基于第二代VLA,小鹏汽车即将发布“小路NGP”功能,在全新技术框架的加持下,小鹏汽车在复杂小路的平均接管里程(MPI)提升了13倍。
去掉数据标注和语言转译的第二代VLA,在泛化性表现上有了质的飞跃。
这意味着,小鹏可以去各个城市甚至海外市场推行智驾功能,因为它不再需要做任何数据标注——只要当地有小鹏的车,就可以在各地进行泛化。
在欧洲,小鹏与特斯拉上一个版本的FSD进行了智驾对比,在一段20公里的复杂小路上,小鹏仅接管了1次,优于特斯拉。
何小鹏颇有信心地表示,下个月也会与特斯拉FSD的最新版本进行测试对比。
基于此,小鹏汽车还将在行业首发“无导航自动辅助驾驶”Super LCC+人机共驾,不依赖导航全球范围均可开启,在漫游的过程中轻转方向盘,车辆即可协同完成变道和转向。
对于小鹏汽车来说,这一全新的VLA架构,是小鹏首个量产物理世界大模型。
它不仅将用于智能驾驶,也会同步应用于小鹏的Robotaxi、人形机器人IRON以及飞行汽车上,它们将与智驾车辆一起,共同构成何小鹏勾勒的“物理AI”完整版图。
从云端训练到车端部署
去年3月,刘先明加入小鹏汽车,担任小鹏AI团队负责人。
如何小鹏介绍,小鹏汽车去年同时并行着两个项目,由于“去语言”的VLA方案投入高、不确定性大,在很长一段时间里,刘先明都是带着团队做秘密开发。
今年4月,小鹏汽车正式对外提出了 “基座模型” 的概念,称内部在开发一个720亿参数的超大规模自动驾驶大模型。6月,刘先明曾以小鹏汽车世界基座模型负责人的身份发表演讲。
随着第二代VLA的发布,在今年小鹏科技日的次日,刘先明也与部分媒体进行了小范围交流。
这是他接任小鹏自动驾驶中心负责人以来第一次公开露面。
刘先明解释,第二代VLA其实在做三件事:泛化、涌现和演进。
首先,模型能量产,就要求它泛化性足够强,即能适应不同的地区、不同的场景,比如园区、地库、漫游、LCC,也能到海外。
其次,当技术积累到一定程度发生突变,过去不太能想象的业务形态也会变得顺理成章。
“为什么(现在的智驾方案)不同版本之间总拉不开差距,不同厂家的方案好像也感觉此起彼伏、没有代际差?就是技术没有达到新水平,所以不停地压跷跷板。”
最后,还要演进,未来还有很多技术迭代和场景应用的路要走。
过去几年,小鹏汽车一直走在自动驾驶技术研发的前沿,用算法去试图实现车辆的自动驾驶,刘先明指出,这种研发模式很难突破当前系统的局限。
“我每天模仿学习不停地解,每天解99%,你要挑战多少位才能达到L4?这个是不可收敛的。”
大语言模型的成功给了团队一些启发——如果有办法能大规模使用数据,让自监督变成可能,这个事情是有可能成的,因为不用加人工标注的规则,也不用加人工校验。
但它同时也面临三大难点:
第一,当输入信号从文字变为视频,就意味着从明确离散的结构化数据变成了连续信号,有大量的信息损失;
第二,文字是可数的,但控制信号是个连续量,没办法通过离散化Token的方式来进行输出;
第三,缺乏真实交互反馈。
刘先明指出,现在很多人是将强化学习当成一个有监督的Imitation learning(模仿学习)来用的,就像解物理题,按照步骤给分,但解决真实世界的问题,则需要拿到真实反馈。
基于上述问题,刘先明表示,第二代VLA的第一个核心就是:输入信号尽量使用真实世界的物理信号,也就是Video,而非大量文本;
第二个核心则是:输出空间不再采用文字的离散化表达,而是使用更多的连续信号来完成相关任务,从而让网络结构极其简单。
“当下很多VLA基本都是这种结构——图像、指令进来,通过一个大语言模型,最终去输出token,再通过文字的方式decode。这种方式最大的优势在于有很多开源模型可以直接用,但带来的问题是引用了一个离散化的文字输出,这样就会让数据使用规模成为限制。”
为什么视频进来直接输出的这种大模型好用?就像人类做出一个动作,要经历几个过程,他需要理解这个场景怎么构建的,并根据过去的历史信息做出对未来的判断,最后再做出最后的行动。
因此,如果最终输出的信号是行为,模型就包含了重建、理解、生成和推理的所有过程——只要能用更大规模的数据、更大的模型,就能把这个事情做下来,理论上这是成立的。
但更大规模的数据怎么来?
据何小鹏介绍,第二代VLA的训练使用了1亿Clips的数据,不是标准数据,而是各种corner case的数据,相当于驾驶65000年才能遇到的极限场景之和。
为了研发这个更大的模型,小鹏采用了阿里云3万卡云端超大算力集群,每五天全链路迭代一次,最终才做出这个720亿参数的基座大模型。
据何小鹏介绍,小鹏明年会有5万张卡甚至更多,他认为超大的云端算力集群是实现物理AI的重要基础。
但仅仅具有云端算力还不够,小鹏构建了从芯片到算子再到模型的全链路优化——一颗图灵芯片算力达到750TOPS,一辆整车上的算力则可达到2250TOPS,是行业的3-22倍,算子提高了12倍的模型推理效率,模型参数则是行业的10倍以上。
在车端部署方面,刘先明介绍,小鹏第二代VLA在训练过程中,直接内嵌推理逻辑,部署时就可去掉云端计算部分——这意味着,在量产上车时,可以直接使用VLA架构进行推理,大大提高了测算和推理效率。
“我们做了一个低延时、本地化、高帧率的版本,让这个模型在本地图灵芯片上跑到实时,跟设想的帧率完全一致。否则一个模型如果只能跑4赫兹,如果前方有一辆车或者一个行人切入,反应时间在700、800毫秒,根本来不及,直接撞上去。”
为了在车端的图灵芯片上跑到实时,跟摄像头同帧率,小鹏汽车重新开发了针对性的编译器和软件栈,榨干了图灵芯片每一比特的算力。
技术、产品及未来规划
在媒体问答环节,刘先明、小鹏汽车自动驾驶中心产品高级总监袁婷婷也就更多技术细节、产品体验及未来规划等相关话题进行了详细解答,以下是交流纪要(经编辑):
技术细节
Q:你们是真的把“L”去掉了吗?还是说,中间依然是有一道转译的?就像以前Language那样代表着大脑的思考和常识推理的部分。
A:Language确实拆掉了。正常训练的时候用的是图文,给你一段视频、一段文字做联合训练,但其实我们有文字的话,文字还是会做Token化。
其实没有必要把这个事情说得这么绝对,有或者没有,任何多模态、预训练大模型,把信息变成一个Token,然后想办法去做一些推理,翻译成语言,再放到大语言模型里做推理,这个事情就很绕。
Q:小鹏的车并不是最多的,为什么有大量的长尾数据可以用来训练?
A:第一,车端的Infra(即人工智能基础设施,连接算力和应用的AI中间层基础设施),我们做了很多工作,哪些数据是我们要的,哪些数据是我们不要的,这个数据只要你有办法识别出来就可以。
第二,在云端,我们爱比较大的数据闭环,这些闭环也在调,数据上来之后要看它的质量。
Q:在智能还没有涌现之前,我们知不知道它为什么没有涌现?又是什么促成这个转折点的出现?
A:“涌现”不是偶然性的问题。这个事情从去年开始做规划,做数据累积、Infra的累积,如果你看不到这一点,不太可能做这么多前期投入,如果是偶然,是不是成功都不知道,我觉得也没办法说服整个公司支持。
这个转折点的出现肯定是有底层Know how,但这个我也不太能说,面对各位媒体,第二天友商全知道了。
第二点,其实背后还有很多Infra的投入,这本身是一个非常大的事,就这么说,你要从训练端一口气做几十个PB的数据,还不要产生系统延时,导致你训练拖慢,这不是一两天能做完的。所以出现这样一个质变,并不是简单拼运气。
Q:车端真的有推理还是单纯在应用,或者说,会不会有隐式的推理?
A:对,就是隐式推理,整个推理过程还是在的。
Q:大模型的方案有可能效果很好,但下限也无法保证。小鹏第二代VLA在两边各有3公分的场景通行,这是强化训练做出来的吗?是一个一个做,还是成批次解决?
A:一定是成批次、大规模、自动化地做这个事情,昨天你看到在非常窄的路上通行,这不是一个一个解出来的,我们也不知道有那样的训练数据。它真的尝试理解这个世界怎么运行的,可能这个理解的过程也很简单,它自然就会理解这个事。
Q:我们的验证是怎么做的?像特斯拉好像是使用了生成式架构,做一个3D视界验证它的安全。
A:验证确实是大规模的仿真加上实测验证,对一个闭环系统来说很需要做里程累计,实车测试可控性很低,非常难以做到实测对比,很难遇到同样一个场景,但仿真可以给你更好的结果。
仿真再配上刚才说到的舒适、安全、效率、合规等指标,合在一起就给我们统计意义上的全貌。所以我们自己做的时候也在使用闭环仿真。
另外,我们还用更好的模型让整个重建质量变得更高,包括我们自己做的纯粹世界模型。
仿真+指标+实测,可以给我们一个很好的坐标体系。关于兜底,其实这个地方没有太多兜底,我们整个系统里面基本没有规则(算法),但安全上一个下限是靠强化学习来强调安全本身,另外就是靠AEB,AEB永远是保护安全的最后一道屏障。
产品体验
Q:之前我去试驾过一些世界模型方案的车,发现它在一些路口的时候,比如说它是头车,在面对直行待行区时,它无法识别,但第一代的VLA这一点是可以做到,把Language去掉后,第二代这一块能不能做得更好?
A:从我们自己的体感来说,待转区问题不大。
逻辑也很简单,本质上来说是通过大量的模仿、学习和自监督,让模型学会某种corner case,模型还要学会推理,所以我们才能看到泛化和涌现效应。说白了,我不需要告诉模型你到了哪里需要怎么开,只要训练数据里面有待转区就行。
Q:泊车什么时候能用新架构解决掉?
A:首先,现在推行的架构需要时间,核心就是把行车先做到一个完全不一样的下一代体验。说白了,大家都说你是第一,我是第一,意义有多大?如果产品没有拉开特别大的差距,技术没有拉开差距的话,其他都是白扯的。我们会优先解决“行车”的问题。
Q:老车主能否体验到第二代VLA技术?
A:答案是肯定的。发布会上,大师兄的OKR也已经拍下来了。
但芯片算力下降的时候,也一定会有一些损失的,所以我们会在内部优先解决当前的量产问题,保证第一波推送是大家都满意的,后面再逐渐解决Max出行的问题。
Q:什么节点海外用户能够用上?
A:海外预期是在明年。
因为海外我们有受到很多法律法规上的影响,LCC是在全球各个国家被法律法规所允许的产品,这是确定性的,所以我们会把极致性能的VLA2.0加持在LCC上,使它成为Super-LCC,同时把我们国内现在也广受好评的人机共驶,非常好的LCC,你又可以随时转向,用人来做转向或变道,但不退出本身的行车轨迹,相信一定会给全球小鹏用户带来新的、很好的体验。
Q:有人认为端到端架构的特征之一就是不能设置速度,这准不准确?作为一个消费者,他要识别这种比较极致的端到端架构,要看哪些方面?
A:端到端外界有很多误解,最早期大家觉得门到门、点到点就是端到端。
端到端是一个技术路线,并不是一种产品形态,自动驾驶的核心是——能不能在一个有限的算力和系统下实现一个大家想要的体验,即安全、舒适、合规、效率。如果能做到这些,不用太纠结它是什么技术架构。
未来规划
Q:我有点不太敢相信这个事情发生了,而且是小鹏干出来的,从你的角度来看,这个工程做到了以后,未来会有什么深远的影响?
A:做这样一个东西,我觉得首先看公司。
小鹏是一家很有远见的公司,有很多事情是一号位工程。做这么一个冒险的事情,如果没有一号位的支持是做不了的,包括前期投入,每年烧掉多少钱的训练预算。
但前提就是你看到之后敢不敢投、敢不敢做,这是很重要一件事。国内大多数企业都趋向于稳定,要么拿开源模型试一下,要么就等别人做好了之后我去跟随,去工程化,去落地,甚至去挖人。
所以如果一个创新企业要做这件事情,一定要从根儿上提出问题,你要敢去想、敢去看,并且看准你的方向之后敢去投。我觉得也许也有其他友商在做类似的事情,或者在过程当中也已经达到一个类似的状态,也许后面会有越来越多人跟着这条路线,这就是一个内部创业的过程。
未来,其实我觉得一定得拆掉自己过去成功的经验,这很重要。
我们明确了技术规划路径,也许到明年、后年,配合着更大规模算力的芯片,新的技术又涌现突破,可能还会更新。那个时候对这个团队的挑战就是——你敢不敢再革一次自己的命。
整个架构一定不停向前演进,我们现在看到的架构就是过去几年AI发展最核心的道理:数据的scaling,把整个系统打造成好用、规模化,让它的整个训练规模起来,能让这个事情变得可实现的,这是我们做得比较好的事情。
未来肯定会出现新的机会,我希望我的团队能把现有的东西干掉,再做一场新的。
Q:未来一年或者短期内,你最想实现的东西是什么?
A:还是有很多可以做的,能不能进一步压榨芯片,进一步做软硬结合?另外,Robotaxi要解决更多长尾问题,需要更多时间的推理,同时更极致的原生多模态,这也需要往前去推。
Q:在Robotaxi上,同行们都采用激光雷达,而且不止一颗。小鹏未来会不会把激光雷达再放上去?
A:激光雷达是不会拿回来的。
首先我们的L4算力也非常冗余,为什么一定用激光雷达?激光雷达的频率只有10赫兹,穿透一些透明、半透明的障碍物,需要很高的发射功率,这不符合车规,而且在很远的距离,100米、150米,一辆车就三个点、两个点,你能干什么?什么都干不了。
所以激光雷达相比于摄像头来说,没有特别大的优势,反而会带来一些问题。
为什么行业还在大规模使用激光雷达?过去,算力比较小、模型比较小的情况下,比较依赖于这种探测器给你一个准确的感知,但它输入的信息量是有限的。
摄像头的问题是,之前的系统没办法通过更大模型、更好算法来利用这些信息。摄像头有一个其他的问题,是不是夜间看不见?也不是,摄像头一般进来的是28比特。所以问题不在于摄像头本身不行,强光、逆光、黑夜的环境,它不是完全看不见。
Q:小鹏说到一组数据,第二代VLA在小路上的接管率大幅降低,这是多大样本测试出来的?
这对于Robotaxi的部署是否足够?你们判断Robotaxi的部署先决条件,除了接管率之外,是不是还有其他方面的数据?
A:关于Robotaxi(部署的先决条件),这个没有硬性标准,做到什么程度都可以的。因为这个指标本身取决于运营场景,它是技术不停提升,降低云端接管的频率,最终达到一个平衡性和获利的状况。
目前我们还没有看到一个明确的收敛情况,说基本上到头了,不太可能往上涨了,还是按照目前的规划继续往前走,我们应该会不停看到接管率继续下降。
还有一个问题,自动驾驶的评价标准不仅仅只有接管率,很多接管只是人不安心或者效率原因。我相信,自动驾驶是综合性指标。自动驾驶的核心是要安全,这是第一原则,所以事故率肯定是其中之一。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.