网易首页 > 网易号 > 正文 申请入驻

特斯拉新推出的FSD V14:自动驾驶训练从模仿学习走向强化学习

0
分享至


随着端到端自动驾驶2.0方案的不断涌现,强化学习的概念再次站到了舞台中间。

借着这个机会,今天跟大家谈一谈智能的三种范式,以及模仿学习与强化学习的不同点。

古代先贤将天、地、人视为三才,看似渺小的人类可以与广袤的天地并立,是因为人类具有其它物种不曾拥有的智能,发展出了改天换地的能力。

到了人工智能时代,碳基人类孵化出已经实现全知、正在迈向全能的硅基人类新物种,对这个新物种而言,其智能的获得有规则编写、模仿学习和强化学习三种方式。


从人工智能的三大流派来看,编写规则属于符号主义学派,模仿学习和强化学习属于连接主义学派。

符号主义的核心思想是人类专家将知识和决策过程编写为明确的逻辑规则,用各种符号来表达知识和概念之间的关联。

该学派的典型代表作是专家系统,它将特定领域的知识编码到知识库中,推理引擎根据输入的事实进行匹配并执行相应的规则,得出具体的结论。


连接主义的核心思想是智能来自于神经网络及其连接机制,强调的是从数据中学习,构建由大量简单的处理单元通过带有权重的连接组成的人工神经网络。

根据输入数据自动调整网络中的连接权重,以最小化网络输出和真实输出之间的误差,使得网络学习输入和输出之间的复杂映射关系并具备泛化能力。


具体到自动驾驶领域,23年之前,头部智驾企业实现了基于深度神经网络的感知。

在驾驶策略决策上依赖天生牛马的程序员编写的程序,感知层践行的是连接主义,决策层践行的是符号主义,算是符号主义和连接主义的混合体。


24年之后,头部智驾企业纷纷效法特斯拉转型端到端方案,其核心转变在于决策层由规则驱动的编码转向数据驱动的深度神经网络,从学术流派上来看,则是全面转向了连接主义。

成也萧何,败也萧何。人是推动基于符号主义的人工智能系统智能水平提升的关键动力,也是拖累这类AI系统能力进步的关键因素。

就自动驾驶系统而言,如果还困守在规则编码范式上,随着其设计运行条件越来越宽泛,这种将人类复杂思维和业务逻辑映射为代码形式的规则编码系统将在维护和扩展上面临越来越大的挑战。


随着自动驾驶从简单的高速场景进入交通流复杂的城区场景,几万条甚至几十万条规则极其复杂地交织在一起,能够handle得住这些复杂规则的程序员越来越少了。

一方面,高昂的认知复杂度和规则交互的不可预测性给系统的鲁棒性、安全性带来了很大的隐患。

另一方面,由于天才程序员极其稀少,规则系统的核心逻辑往往掌握在少数几个极度资深的关键人物头脑中,一旦他们离职或者调动,系统的维护就会面临巨大的风险。


比技术本身的复杂性更加棘手的是人因问题。

当代码的规模越来越大,原本依赖个人智慧的单兵突进开发方式迅速失效,转向兵团作战的开发方式时,为了克服开发和测试人员在理解、沟通、协作和维护规则代码时存在的天然限制和水平差异,需要围绕人因协作定义软件活动、软件开发流程和软件体系,带来了软件工程难题。


自动驾驶算法转型端到端范式之后,系统提升自身智能水平的途径由符号主义的规则编码转向连接主义的数据驱动深度学习,自然而然地解决了规则代码复杂性和人因的问题。

更重要的,端到端还解决了把钱花在人力上还是花在物力(算力卡)上的问题,见异思迁的人员可以自由流动,买来的算力卡却不长腿,对于万恶的资本家来说,哪种方式更加诱人是不言而喻的。

有人的地方就有江湖,有江湖的地方就有纷争。

自动驾驶算法范式由传统的端到端1.0向端到端2.0方案切换以来,基于强化学习的一段式端到端、VLA和世界行为模型这三种技术路线之间展开了你来我往的舆论大混战,再次验证了在竞争激烈的本土智能电动汽车江湖里,讲的不是人情世故,而是打打杀杀。


说起来,这三种方案各有各的优点,各有各的缺陷,求同存异的话,它们都在训练阶段引入了强化学习,也就是说,它们的学习方式都由原来的模仿学习走向了模仿学习+强化学习的混合学习。


在自动驾驶领域,模仿学习的核心是让司机Agent通过观察专家司机在特定状态下的动作,学习从感知传感器输入到动作输出之间的映射策略,使得在遇到相同或相似的状态时,系统能够采取与老司机相似的动作。

这种学习方式可以直接利用现成的驾驶数据,无需与环境进行耗时且可能危险的交互,能够快速获得一个表现不错的策略。

而且,由于模仿人类,其驾驶风格更加拟人,行为更加自然。

强化学习的核心是将驾驶问题建模为马尔科夫决策过程,不断进行“感知状态-选择动作-执行动作-获得反馈-学习与更新”的重复循环,通过与环境的反复试错交互,根据获得的奖励信号自主学习最优的策略。


模仿学习的缺点非常明显,有样学样,模仿的人类专家水平就是这类模型的天花板,费心费力在这个赛道上投入了几十万亿,人类对自动驾驶系统的期待肯定不能这么低。

强化学习解决了这个天花板问题,它通过自我的博弈和探索,可以发现人类未曾想到的更高效更安全的驾驶策略,做到了青出于蓝而胜于蓝!

目前,业界普遍采用融合模仿学习和强化学习的方案,先通过模仿学习将自动驾驶系统的水平高效率地提升到人类水平,再通过强化学习把人类老司机拍在沙滩上。 至于强化学习能将自动驾驶系统的智能水平提高到什么程度,特斯拉新推出的FSD V14给了非常惊艳的答案!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛还没打 世界第一超级巨星孙颖莎发生意外又火了 看完让人揪心

世乒赛还没打 世界第一超级巨星孙颖莎发生意外又火了 看完让人揪心

兰亭墨未干
2026-04-29 16:31:04
2026斯诺克世锦赛再起争议!罗伯逊公开呼吁禁用奥沙利文专属巧粉

2026斯诺克世锦赛再起争议!罗伯逊公开呼吁禁用奥沙利文专属巧粉

冷桂零落
2026-04-29 18:36:43
八段锦这场“骗局”,到底忽悠了多少中国女人

八段锦这场“骗局”,到底忽悠了多少中国女人

智识漂流
2026-04-29 14:23:59
伊朗突发暗杀事件

伊朗突发暗杀事件

第一财经资讯
2026-04-29 19:09:32
郎永淳不再隐瞒,坦言央视主持人的退休工资,妻子只有3000元

郎永淳不再隐瞒,坦言央视主持人的退休工资,妻子只有3000元

阿凫爱吐槽
2026-04-30 01:30:02
父亲住院37天女婿陪37天,儿子只来2次,出院当天儿子开车接他,儿子:爸,你给我76万我换辆车吧

父亲住院37天女婿陪37天,儿子只来2次,出院当天儿子开车接他,儿子:爸,你给我76万我换辆车吧

大爱三湘
2026-04-28 15:23:14
17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

观威海
2026-04-28 18:12:05
特朗普:美国准备长期封锁伊朗

特朗普:美国准备长期封锁伊朗

新华社
2026-04-29 09:13:29
韩国瑜被指“卖党求荣”后,郑丽文发声,国民党一人向郑丽文开火

韩国瑜被指“卖党求荣”后,郑丽文发声,国民党一人向郑丽文开火

兰妮搞笑分享
2026-04-29 17:10:08
山西突发重大命案!警方通报,同村人曝更多,原因被扒果然不简单

山西突发重大命案!警方通报,同村人曝更多,原因被扒果然不简单

观察鉴娱
2026-04-29 10:26:51
最新 | 地铁施工,房屋开裂下沉!杭州官方通报!

最新 | 地铁施工,房屋开裂下沉!杭州官方通报!

天津广播
2026-04-29 11:03:17
胡锡进:年轻人只要成家有了孩子,哪里还有躺平的资本

胡锡进:年轻人只要成家有了孩子,哪里还有躺平的资本

映射生活的身影
2026-04-29 16:08:11
两性潜规则:搞定中年女人,别乱叫,这几种喊法她一听就化

两性潜规则:搞定中年女人,别乱叫,这几种喊法她一听就化

荷兰豆爱健康
2026-04-30 03:35:44
高市早苗:不行咱就出兵吧!核心幕僚:不,你不想,你千万别想!

高市早苗:不行咱就出兵吧!核心幕僚:不,你不想,你千万别想!

Ck的蜜糖
2026-04-30 02:42:03
五一前后,少买这5样蔬菜,都是反季节,不好吃还没营养,早知道

五一前后,少买这5样蔬菜,都是反季节,不好吃还没营养,早知道

阿龙美食记
2026-04-28 14:06:24
1.3 亿英镑甩卖倒计时!帕尔默去留定生死,切尔西只卡唯一硬条件

1.3 亿英镑甩卖倒计时!帕尔默去留定生死,切尔西只卡唯一硬条件

奶盖熊本熊
2026-04-30 04:45:19
云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

云南一方丈意外身亡,整理遗物银行卡有498万,方丈女儿提出继承,寺庙拒绝:出家人,这笔钱属于寺庙!

大爱三湘
2026-04-28 19:39:12
伊朗的“缓兵之计”玩砸了:把特朗普当傻子,结果自己却成了笑话

伊朗的“缓兵之计”玩砸了:把特朗普当傻子,结果自己却成了笑话

民间胡扯老哥
2026-04-28 23:04:21
东体:足协官员曾找到特谢拉,希望他把注意力多放在比赛上

东体:足协官员曾找到特谢拉,希望他把注意力多放在比赛上

懂球帝
2026-04-29 11:58:07
特朗普:伊朗刚刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:通过霍尔木兹,须缴费并用波斯语通讯

特朗普:伊朗刚刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:通过霍尔木兹,须缴费并用波斯语通讯

每日经济新闻
2026-04-29 11:22:29
2026-04-30 05:16:50
燃擎频道 incentive-icons
燃擎频道
中国汽车自媒体前30强!
8772文章数 231288关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

本地
数码
家居
健康
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

极米RS30系列投影仪发布,8822-13499元

家居要闻

寂然无界 简洁风格

干细胞治烧烫伤能用了么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版