网易首页 > 网易号 > 正文 申请入驻

小鹏加速冲向L4终局:对VLA架构「动刀」成关键一环

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|泽南、杜伟

两个月前的 CES 上,黄仁勋开源了英伟达的首个 VLA(视觉 - 语言 - 动作)模型,并高调宣称物理 AI 的「ChatGPT 时刻」马上就要到来。

如今,物理世界的 AI 正在成为一个重要趋势:从机器人到辅助驾驶,越来越多的公司正在尝试用 VLA 模型来重构机器与物理世界交互的方式。

在辅助驾驶领域,端到端的 VLA 方法已经经历了大量验证,实现了前所未有的效果。然而,这种架构面临一个天然挑战:作为中间层的语言难以完整准确表达现实物理世界的全部细节。李飞飞曾在一次访谈中表示,「语言本身只是对物理世界的一种有损表达。」

在需要实时理解环境并生成驾驶决策的自动驾驶环境中,通过语言这一中间层来描述物理世界既有可能引入信息损失,还会增加额外推理路径。随着驾驶场景复杂度的增加,这种架构缺陷制约了系统准确率与效率的继续提升。

针对这一痛点,小鹏汽车给出的创新性解法是:直接去掉「语言转译」环节,在业界首次实现从视觉信号到动作指令的端到端直接生成。这正是其在去年 11 月亮相的第二代 VLA(XPENG VLA 2.0),并在此后数月完成了 468 个版本更新。

新技术很快产生了质变:在 3 月 2 日举办的「小鹏第二代 VLA 媒体体验日」上,何小鹏宣布,第二代 VLA 将于本月开启推送。


人们普遍预测,2026 年将成为「物理 AI 元年」。小鹏第二代 VLA 的落地,率先给出了通向完全自动驾驶的「中国答案」。

跨代级的驾驶体验

在实际体验上,第二代 VLA 的提升主要体现在三大维度:安心丝滑、全场景能力和高效率。

由于端到端模型的泛化能力,小鹏第二代 VLA 已实现实现准确识别各种异形车辆的能力。


即使是对面来车的交通事故,VLA 也能正确识别障碍物和阻碍路线的车辆,并进行实时的路径规划。


在安全和流畅度提升的同时,小鹏的第二代 VLA 成为了真正的「全场景辅助驾驶」,支持从停车位、P 挡的原地激活,覆盖园区小路、乡村土路及无导航道路,能够应对小路通行、乡村小路避坑等复杂场景。

在拥挤且复杂的停车场,第二代 VLA 辅助驾驶可以自动漫游一直穿行到出门,给你充分的时间设置好导航,可以开始正式的行程。


这意味着从你上车按下启动键开始,AI 系统就能接管驾驶,真正实现了从家里车位到公司车位的点到点无缝衔接。何小鹏表示,全场景的辅助驾驶能力将保证在今年年内推出,在所有场景下的辅助驾驶能力都会像主干道一样达到「99 分水平」。

第二代 VLA 的通行效率也有大幅提升,在保障安全的前提下,小鹏实测其综合行车效率提升了 23%。在城市晚高峰的复杂路况下,其通行效率超过了传统的 L2 智驾和 Robotaxi。

基于这样的能力,第二代 VLA 的使用门槛大幅降低。何小鹏表示,好的技术一定要让每一个人都能用起来,国民的智驾就应该像坐电梯一样简单,做到简单、安全且好用。

不过,体验上是极度的简单好用,并不意味着技术上是在原有智驾框架上的简单修补。小鹏第二代 VLA 背后,是底层技术架构的一次完全「推倒重来」。

重构技术底座:原生多模态物理大模型

面向 L4 的终极目标,小鹏汽车自前年开始立项,对端到端的智能驾驶进行了完全的底层重构。

为了将自动驾驶推向物理 AI 的本质,小鹏构建了全流程能力,其中第二代 VLA 是真正做好高阶自动驾驶的关键技术底座。

第二代 VLA 代表了 AI 驱动驾驶技术的一次重要架构升级,其不再像传统 VLA 模型那样先通过视觉感知获取环境信息,再将这些信息转化为基于语言的推理过程,最终生成车辆的行动指令。

通过引入一种端到端的「视觉 - 动作」(Vision-to-Action)架构,第二代 VLA 使系统能够将环境感知直接转化为驾驶决策,提升了整体效率,并显著加快了系统响应速度。

用一句话总结第二代 VLA:其以统一模型贯通环境感知、场景推理与行动决策,实现「感知 — 推理 — 行动」一体化。

在感知层面,通过原生多模态 Tokenizer,打破不同模态之间的壁垒,实现了视觉、语音、文本等的统一编码与融合,对物理世界形成了统一的理解。

在推理层面,引入超密集的视觉思维链(Visual CoT),能够对复杂场景进行更高效视觉推理,相较于传统 CoT 推理效率提升约 32 倍。同时相较传统 CoT 预测误差降低 33%,提升系统对复杂驾驶环境的理解与决策判断。

在行动层面,直接生成多模态输出,包括语音、视觉反馈以及具体动作和行为。


小鹏通用智能中心负责人刘先明

不仅如此,小鹏汽车还联合北京大学提出了一种全新的视觉 token 剪枝框架 FastDriveVLA,它能让 AI 像人类司机一样,在复杂路况下自动忽略路边的广告牌和无关风景,只盯着核心路况。

通过让 AI 只专注有用的核心信息而忽略无用信息,该框架高效解决了自动驾驶模型 VLA 在处理高帧率图像时带来的超高计算量问题。相关论文已被 AI 顶会 AAAI 2026 接收。


论文地址:https://arxiv.org/pdf/2507.23318

当然,构建出强大的 AI 底座仅仅是第一步。在高度复杂的物理世界中,面向 L4 级的辅助驾驶,还必须依托于另外几个核心要素。

能力公式重构:模型 × 算力 × 数据 × 本体

小鹏提出:第二代 VLA 的突破并非单点能力升级,而是遵循 L4 能力等于「模型 × 算力 × 数据 × 本体」的 Scaling Laws(规模法则)。

正如前沿 AI 技术应用不断验证的那样,单纯堆叠通用芯片算力或一味追求庞大的模型参数,往往会在实际部署时遭遇瓶颈。真正的能力护城河,必须是算法、底层硬件架构与海量数据的深度耦合。

在自动驾驶这个顶级 AI 工程问题上,要想实现真正的 L4 级自动驾驶,仅靠单一的算法模型突破是远远不够的。系统必须依托车辆这个「物理本体」,在模型、算力和数据三个维度实现高度协同。

这是一条难而正确的路。

在这其中,既包含了理解真实世界的基础:原生多模态大模型。正如上文所述,小鹏的基座模型实现「看、听、读」的感官合一,将感知理解、场景推理、行动执行统一到同一模型框架中。


同时也包含了高度优化的软硬件协同,利用有效算力打开智能的上限。

小鹏在底层算力架构上进行了深度定制。依靠自研的图灵芯片,小鹏实现了「芯片 - 编译器 - 模型」的联合优化研发。通过专门开发的自动化编译器和基于芯片定制化的图灵结构模型,小鹏最大化了算力的利用率,使得模型在车端的运行速度飙升了 12 倍。


这种深度的软硬件一体化设计,正是第二代 VLA 能够实时处理海量视觉信息的底气。

在训练 AI 的过程中,还必须构筑起数据飞轮,让视觉数据的高信息密度价值得以充分释放。

一个值得关注的对比是:当前国内所有数字 AI(主要是各类大语言模型)的日调用量大约为 0.737 万亿 Token,而小鹏仅仅 20 万辆搭载第二代 VLA Ultra 的车辆,每天在车端模型上消耗的物理 AI Token 量就高达 58.8 万亿 —— 小鹏车端模型每天消耗的 Token,是全国数字 AI 日调用量的近 80 倍。

目前,小鹏已经积累了超过 50PB 的训练数据,小鹏车端的高清传感器每秒要处理高达 53 亿字节的视觉数据。

最后,这一切都需要依托强大的 AI Infra,再通过世界模型的仿真训练实现闭环。

依托领先的 AI 基础设施,自去年科技日以来,小鹏在半年内完成了 468 个模型的版本迭代。

此外为了应对现实世界中难以穷尽的 Corner Case,小鹏引入了世界模型进行闭环仿真。如今,其仿真场景库已从一年前的 3 万个激增至 50 多万个,每天在虚拟世界中进行基于强化学习的「自我对弈」,日均仿真测试里程等效于 3000 万公里的实车测试。


可以说,小鹏第二代 VLA 是一个基于端到端 AI 算法、定制芯片高度整合,由海量数据和世界模型知识共同构建的超级物理 AI 生命体。

结语

随着新一代 VLA 智能驾驶的出现,物理 AI 的实力正在逐渐展现。


何小鹏表示,基于端到端模型的辅助驾驶能力将会成为汽车行业未来三年的重要突破,它是面向完全自动驾驶的第一个版本。在小鹏内部,该技术正在以前所未有的速度迭代。

对于一家车企而言,第二代 VLA 是小鹏在自动驾驶技术路径上的一次重要探索:不同于传统驾驶系统各个模块(如感知、规划、控制)逐一优化的工程化思路,其围绕自研基座模型打造统一的物理世界智能系统,从而具备理解真实世界并持续学习、演进的能力。

随着自动驾驶技术加速迈向 AI 驱动的智能时代,这种技术体系势必成为其在下一阶段竞争中争夺主动权的关键变量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
看成龙、洪金宝近况,才知巅峰时隐退,移居加拿大的他,有多英明

看成龙、洪金宝近况,才知巅峰时隐退,移居加拿大的他,有多英明

查尔菲的笔记
2026-03-06 17:16:01
北京新东城规划方案

北京新东城规划方案

生活魔术专家
2026-03-07 15:25:44
卖掉上海内环房!89岁朱逢博之子换房养老,给多少人上了一课

卖掉上海内环房!89岁朱逢博之子换房养老,给多少人上了一课

爱看剧的阿峰
2026-03-02 01:27:34
董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

草莓解说体育
2026-03-07 20:06:45
医生劝告:心梗最危险信号,不是胸痛,而是频繁出现这3个症状

医生劝告:心梗最危险信号,不是胸痛,而是频繁出现这3个症状

蜉蝣说
2026-03-07 17:51:37
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
全新一代雷克萨斯ES美国售价揭晓:48795美元起,下月登陆国内

全新一代雷克萨斯ES美国售价揭晓:48795美元起,下月登陆国内

IT之家
2026-03-06 18:19:38
刘国梁不愧是国乒定海神针 犀利回复说 孙颖莎根本就不是饭圈文化

刘国梁不愧是国乒定海神针 犀利回复说 孙颖莎根本就不是饭圈文化

晚雾空青
2026-03-07 19:08:18
云南3-1海牛迎开门红,侯永永、克莱伯破门,弋腾传射

云南3-1海牛迎开门红,侯永永、克莱伯破门,弋腾传射

懂球帝
2026-03-07 21:29:14
2026两会开始当天,张凯丽建议整治圈内乱象,周迅、杨幂榜上有名

2026两会开始当天,张凯丽建议整治圈内乱象,周迅、杨幂榜上有名

老鹈爱说事
2026-03-06 21:37:50
买牛肉,建议:少买牛腱子和牛腩,多买这3种,不贵用处多

买牛肉,建议:少买牛腱子和牛腩,多买这3种,不贵用处多

美食格物
2026-03-04 21:26:10
印度同意接纳伊朗军舰

印度同意接纳伊朗军舰

财联社
2026-03-07 14:38:12
古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

古埃及法老乱伦,为何不觉得违背伦理?甚至觉得:一般人是没机会

扶苏史记
2026-03-07 15:16:48
德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

路医生健康科普
2026-03-04 12:30:03
热议河南胜海港:河南是真玩命;照这个踢法夏窗梅伦多又回了

热议河南胜海港:河南是真玩命;照这个踢法夏窗梅伦多又回了

懂球帝
2026-03-07 22:11:07
华西医院本部院区扩容要来了

华西医院本部院区扩容要来了

今日养生之道
2026-03-07 22:22:47
星锐赛-CBA星锐队大胜大学生联队 陈家政26+6+4获MVP

星锐赛-CBA星锐队大胜大学生联队 陈家政26+6+4获MVP

醉卧浮生
2026-03-07 21:16:31
梁咏琪49岁似少女!西班牙白发老公帅上热搜,婚姻如今羡煞全网

梁咏琪49岁似少女!西班牙白发老公帅上热搜,婚姻如今羡煞全网

小椰的奶奶
2026-03-08 01:17:29
阿森纳2-1险胜弱旅,晋级足总杯八强,却迎2坏消息,争冠埋隐患

阿森纳2-1险胜弱旅,晋级足总杯八强,却迎2坏消息,争冠埋隐患

俯身冲顶
2026-03-07 22:09:24
2026-03-08 05:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2391865文章数 5729关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

手机
亲子
教育
数码
公开课

手机要闻

网曝OPPO Find N6渲染图,或有橙色版本

亲子要闻

长辈劝你生娃的重要性尤其是女性!网友:年轻不懂,老了一定懂

教育要闻

全国政协委员刘国梁建议通过体育锻炼加强挫折教育

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版