前段时间,华为车BU CEO靳玉志在媒体访谈时表示,华为不看好友商的VLA技术路线,世界行为模型WA才是最终通往L4的正确方案。
一石激起千重浪,WA真的比VLA更加强悍?它们的异同是什么?
在数字世界里,大语言模型无所不能,吊打专业写手,碾压高端码农。
在物理世界里,引入了视觉、语音模态的多模态大模型峥嵘初露,似乎还行。
但和其在数字世界里大杀四方的表现和强大威力比起来,面向物理世界的AI大模型的水平真的不行。
![]()
之所以出现如此尴尬的脱节局面,是因为语言智能在大量的文本、互联网视频数据上训练而来,脱胎于数字世界,故而能闲庭信步、比较从容地应用于数字世界。
但是,互联网对真实物理世界进行了高度的抽象,只是对物理世界的简化和侧面的描述,由互联网数据压缩而来的语言智能自然缺乏对物理世界的深刻理解能力。
借用人工智能之父图灵的话来说,具备抽象计算能力的语言智能跟物理世界需要的具身智能本身就是AI领域中两条截然不同的路径。
![]()
这种巨大的分野导致的后果就是,大语言模型在面对物理世界时,体现不出令人满意的智能。
前段时间,初步尝到了VLA方案甜头的理想汽车智能驾驶负责人郎咸朋表示,跟VLA方案相比,传统端到端方案就像猴子开车。
言外之意,VLA司机大模型的自动驾驶能力超越了猴子开车。
这番表态迅即引来地平线智能驾驶负责人苏菁的批评。
苏菁表示,现有的任何技术范式下,AI系统都无法达到猴子的智能水平。
![]()
苏菁此言并非哗众取宠,持类似观点的还有AI三巨头之一的杨立昆。
自大语言模型问世之起,杨立昆就一直在批评基于统计和预测的大语言模型存在诸多缺陷,力推基于物理规律理解的世界模型,并认为在物理世界里,能够开发出像猫或老鼠一样聪明的系统,就算是AI领域的一大进步了。
![]()
所以,从这个角度出发,理想和小鹏VLA的核心是大语言模型,华为WA的核心是世界模型,这是两条不同的路径。
反过来想,总是反过来想。大语言模型无所不能,为什么头部自动驾驶玩家离L4还那么遥远?
人形机器人泡沫滔天,怎么还停步在翻跟头、跑酷、抛手绢这样中看不中用的阶段?
人形机器人还处于孕育初期,暂且不谈,就逐步走入成熟期的自动驾驶而言,其当下未能突破L3的根源在于,之前的智驾系统并不具备全面的、准确的场景理解能力。
![]()
自动驾驶系统从L2到L3的演进,其核心的跨越主要体现在对车辆周围环境的场景理解能力上。
感知能力是场景理解的前提,L2++追求的是对各种标准物体和异形障碍物的感知,以BEV统一了感知,以OCC增强了空间感知能力,并在感知的基础上建立了对车辆周围环境的静态理解。
到了L3阶段,需要进一步由物体感知走向场景理解。
不仅要看到是什么,更要理解为什么、接下来会怎么样。
这样才能构建出一个动态的、基于预判的环境模型,基于和其它道路使用者及交通参与者的交互与博弈,给出智能和拟人化的决策。
![]()
场景理解能力最直接的用武之地便是盲区识别和防御性驾驶。
无论是地平线HSD这类基于强化学习的一段式端到端方案、小鹏与理想的VLA方案还是华为的世界行为模型,最近这段时间的宣传都把重点放在了基于对存在安全隐患的盲区场景的理解做出的防御性驾驶策略上面。
![]()
小鹏和理想选择VLA的根本原因也是因为VLA方案的确具备比传统端到端方案更加强大的场景理解能力。
和基于预训练的大语言模型相比,VLA既拥有了大语言模型的常识,经强化学习后,又增加了基于思维链CoT的推理能力,可以帮助自动驾驶系统从物体感知走向场景理解。
![]()
不过,VLA的场景理解能力即便能够应对L3,却未必可以走向L4阶段。
多问一句,永远多问一句。
接着上面的话题继续追问下去,既然场景理解能力是自动驾驶的关键,那么,场景理解背后的核心又是什么?其实是理解物理世界的规律。
VLA和WA最核心的区别就在对真实物理世界规律的理解与驾驶本质的表达上面。
![]()
我们可以套用在中国士大夫群体里流传很广的《楞严经》里的话,来理解VLA和WA的区别。
楞严经有云,“如人以手,指月示人,彼人因指,当应看月。”
意思就是说,我们通过佛经文字这根手指见证到如如不动的自心本体这个月亮,此时要舍弃掉这些文字,安住在本体之上。
![]()
套用过来,内嵌大语言模型的VLA就是这个手指,它通过人类熟悉的语言符号系统作为中间媒介,来理解驾驶环境,推理驾驶行为。
世界行为模型则是这轮明月,它摒弃了语言的中间层,直接学习到物理世界的底层规律和对应行为。
![]()
从效果上来看,VLA将视觉、语音Token到文本模态,强行借用大语言模型的理解和推理能力,可以实现比传统端到端方案更加出色的表现。
但是,它无法精确地传达物理世界所有复杂、连续和细微的信息,比如精确的深度、速度和力学关系,而且转换过程可能引入幻觉或误差。
相比之下,世界行为模型直接编码和响应物理规律,可以以更精准的物理一致性,更直接地基于对物理世界的预测和理解实现更精确、更可靠的控制。
![]()
从部署上看,VLA模型需要通过语言层将车周环境转换成语言和语义,再结合知识和推理,将语义转换成控制动作,步骤多、延迟高。
世界行为模型不需要将车周景象转换成文字再思考,延迟低、效率高。先看手指再看月亮,确实远不如直接凝视月亮更有效率!
华为的世界行为模型是不是比友商的VLA更加强悍,现在还不好给出过于武断的判断。
不过,有一个事实似乎也在证明世界行为模型更加接近自动驾驶的终极答案,那就是,自动驾驶领域的全球标杆特斯拉走的也是这条路线。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.