![]()
随着端到端自动驾驶2.0方案的不断涌现,强化学习的概念再次站到了舞台中间。
借着这个机会,今天跟大家谈一谈智能的三种范式,以及模仿学习与强化学习的不同点。
古代先贤将天、地、人视为三才,看似渺小的人类可以与广袤的天地并立,是因为人类具有其它物种不曾拥有的智能,发展出了改天换地的能力。
到了人工智能时代,碳基人类孵化出已经实现全知、正在迈向全能的硅基人类新物种,对这个新物种而言,其智能的获得有规则编写、模仿学习和强化学习三种方式。
![]()
从人工智能的三大流派来看,编写规则属于符号主义学派,模仿学习和强化学习属于连接主义学派。
符号主义的核心思想是人类专家将知识和决策过程编写为明确的逻辑规则,用各种符号来表达知识和概念之间的关联。
该学派的典型代表作是专家系统,它将特定领域的知识编码到知识库中,推理引擎根据输入的事实进行匹配并执行相应的规则,得出具体的结论。
![]()
连接主义的核心思想是智能来自于神经网络及其连接机制,强调的是从数据中学习,构建由大量简单的处理单元通过带有权重的连接组成的人工神经网络。
根据输入数据自动调整网络中的连接权重,以最小化网络输出和真实输出之间的误差,使得网络学习输入和输出之间的复杂映射关系并具备泛化能力。
![]()
具体到自动驾驶领域,23年之前,头部智驾企业实现了基于深度神经网络的感知。
在驾驶策略决策上依赖天生牛马的程序员编写的程序,感知层践行的是连接主义,决策层践行的是符号主义,算是符号主义和连接主义的混合体。
![]()
24年之后,头部智驾企业纷纷效法特斯拉转型端到端方案,其核心转变在于决策层由规则驱动的编码转向数据驱动的深度神经网络,从学术流派上来看,则是全面转向了连接主义。
成也萧何,败也萧何。人是推动基于符号主义的人工智能系统智能水平提升的关键动力,也是拖累这类AI系统能力进步的关键因素。
就自动驾驶系统而言,如果还困守在规则编码范式上,随着其设计运行条件越来越宽泛,这种将人类复杂思维和业务逻辑映射为代码形式的规则编码系统将在维护和扩展上面临越来越大的挑战。
![]()
随着自动驾驶从简单的高速场景进入交通流复杂的城区场景,几万条甚至几十万条规则极其复杂地交织在一起,能够handle得住这些复杂规则的程序员越来越少了。
一方面,高昂的认知复杂度和规则交互的不可预测性给系统的鲁棒性、安全性带来了很大的隐患。
另一方面,由于天才程序员极其稀少,规则系统的核心逻辑往往掌握在少数几个极度资深的关键人物头脑中,一旦他们离职或者调动,系统的维护就会面临巨大的风险。
![]()
比技术本身的复杂性更加棘手的是人因问题。
当代码的规模越来越大,原本依赖个人智慧的单兵突进开发方式迅速失效,转向兵团作战的开发方式时,为了克服开发和测试人员在理解、沟通、协作和维护规则代码时存在的天然限制和水平差异,需要围绕人因协作定义软件活动、软件开发流程和软件体系,带来了软件工程难题。
![]()
自动驾驶算法转型端到端范式之后,系统提升自身智能水平的途径由符号主义的规则编码转向连接主义的数据驱动深度学习,自然而然地解决了规则代码复杂性和人因的问题。
更重要的,端到端还解决了把钱花在人力上还是花在物力(算力卡)上的问题,见异思迁的人员可以自由流动,买来的算力卡却不长腿,对于万恶的资本家来说,哪种方式更加诱人是不言而喻的。
有人的地方就有江湖,有江湖的地方就有纷争。
自动驾驶算法范式由传统的端到端1.0向端到端2.0方案切换以来,基于强化学习的一段式端到端、VLA和世界行为模型这三种技术路线之间展开了你来我往的舆论大混战,再次验证了在竞争激烈的本土智能电动汽车江湖里,讲的不是人情世故,而是打打杀杀。
![]()
说起来,这三种方案各有各的优点,各有各的缺陷,求同存异的话,它们都在训练阶段引入了强化学习,也就是说,它们的学习方式都由原来的模仿学习走向了模仿学习+强化学习的混合学习。
![]()
在自动驾驶领域,模仿学习的核心是让司机Agent通过观察专家司机在特定状态下的动作,学习从感知传感器输入到动作输出之间的映射策略,使得在遇到相同或相似的状态时,系统能够采取与老司机相似的动作。
这种学习方式可以直接利用现成的驾驶数据,无需与环境进行耗时且可能危险的交互,能够快速获得一个表现不错的策略。
而且,由于模仿人类,其驾驶风格更加拟人,行为更加自然。
强化学习的核心是将驾驶问题建模为马尔科夫决策过程,不断进行“感知状态-选择动作-执行动作-获得反馈-学习与更新”的重复循环,通过与环境的反复试错交互,根据获得的奖励信号自主学习最优的策略。
![]()
模仿学习的缺点非常明显,有样学样,模仿的人类专家水平就是这类模型的天花板,费心费力在这个赛道上投入了几十万亿,人类对自动驾驶系统的期待肯定不能这么低。
强化学习解决了这个天花板问题,它通过自我的博弈和探索,可以发现人类未曾想到的更高效更安全的驾驶策略,做到了青出于蓝而胜于蓝!
目前,业界普遍采用融合模仿学习和强化学习的方案,先通过模仿学习将自动驾驶系统的水平高效率地提升到人类水平,再通过强化学习把人类老司机拍在沙滩上。 至于强化学习能将自动驾驶系统的智能水平提高到什么程度,特斯拉新推出的FSD V14给了非常惊艳的答案!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.