网易首页 > 网易号 > 正文 申请入驻

自动驾驶中常提的模仿学习是什么?

0
分享至

[首发于智驾最前沿微信公众号]当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿学习,就是把人类司机在各种路况下的行为做成范例,记录下看到了什么和做了什么等信息,然后将这些一一对应起来当作训练数据,并训练出一个模型。



图片源自:网络

当模型训练好以后,遇到类似场景就可以尝试输出类似的人类动作。这种学习方式不需要工程师把每一种情况的规则一条条写出来,也不需要设计一个复杂的奖励函数让机器在虚拟世界里靠试错学会开车,只要有质量较好的“人类示范”,就能把人的“驾驶风格”灌输到模型里。

模仿学习有不同的实现方式。最直接的叫行为克隆(behavior cloning),就是把专家看见与执行的对应关系作为监督学习任务,其输入是传感器数据、前视图、速度等信息,输出是方向盘角度、油门刹车等控制量。还有一种思路是逆强化学习(inverse reinforcement learning),它不是直接学“做什么”,而是试图从人类的行为里反推出一个“潜在的目标函数”或者偏好,再用这个目标去训练模型。除此之外,还有对抗式模仿、层次化模仿等更复杂的变体,这些方法能够在一定程度上缓解简单模仿学习在泛化能力和鲁棒性上的不足。

模仿学习对自动驾驶有什么用

在自动驾驶这样高风险的领域,让模型在真实世界里靠“试错”学习显然不现实。模仿学习可以利用已有的人类驾驶数据,让模型在安全的条件下学习“合格驾驶员”的行为模式。

对于很多常见场景,尤其是城市道路或高速路上的常规操作,模仿学习能教会车辆如何平顺变道、如何与前车保持距离、如何在拥堵路段保持合理速度,这种“像人开车”的行为将提升乘客的体验,并会让社会有更高的接受度。



图片源自:网络

此外,模仿学习在工程上好上手、训练效率也相对更高。模仿学习本质上是监督学习,训练目标直接、损失明确,数据处理管道成熟。因此在研发早期,以及做端到端感知-控制的探索时,模仿学习是首选方法。

模仿学习还能把多模态传感器的信息(摄像头、毫米波雷达、LiDAR、里程计等)合并到一个网络中,直接从原始感知到控制量学习一条端到端的映射,这在某些应用场景能显著简化系统架构。

模仿学习还有一个好处,就是能把“人类的驾驶习惯”保留下来。人类驾驶员在很多情形里会做出既安全又舒适的动作,像是平滑的加减速、合理的避让、符合社会驾驶习惯的决策等,都是人类驾驶员可以轻松应对的动作。把这些行为灌输到模型里,有助于自动驾驶车辆在混合交通环境中更自然地与人类驾驶者共存,从而减少被其他车辆或行人误判的风险。

如何用模仿学习训练模型?

想用模仿学习训练模型,要先进行采集示范数据,然后做数据清洗与标注,接着训练模型并在模拟器或封闭道路上测试,最后再做在线改进与验证。

采集阶段不是简单地采集更多场景,也不是无脑地堆砌各种场景,而是要找到场景多样且高质量的数据,像是白天夜晚、雨雪、高架与城市拥堵、复杂交叉口等场景场景必须都覆盖到。训练时可用卷积神经网络处理图像输入,并把时序信息通过递归结构或时间窗口的方式纳入,让模型能记住短时间内的动态变化。

在模型上线之前,需要通过仿真和闭环测试来验证模型的鲁棒性。单纯在静态测试集上做得好并不代表闭环驾驶也能稳健运行,控制策略的每一步动作都会改变后续的状态分布,这种分布偏移会导致误差积累。



图片源自:网络

为此,要引入在线纠偏机制,如在模型驾驶时让专家在线纠正,将这些新的“偏离状态-专家动作对”加入数据集继续训练,像是DAgger(Dataset Aggregation,数据集聚合)就是采用的这种方法。还有技术方案中会先用模仿学习学一个“基础策略”,再用强化学习或规则化的规划层对其微调与约束,以增强对稀有或危险场景的处理能力。

当然,模仿学习并不等同于完全放手不设规则。为确保自动驾驶系统的安全性,很多技术方案中会采用混合架构,模仿学习负责感知-决策的快速映射,规划层负责长时间尺度的路径规划,规则模块负责硬性安全约束(比如绝对刹停条件、最小车距限制等)。这种分层与混合的策略不仅可以利用模仿学习的高效性,也能通过规则化模块弥补它在极端情况上的不足。

模仿学习的局限与现实挑战

模仿学习虽好,但其存在泛化能力有限与误差积累等问题。模仿模型在训练时学到的是“在那些见过的状态里该做什么”,一旦遇到训练集中没有覆盖到的罕见场景,模型将不知道应该如何处理。尤其是在序列决策问题中,模型自己的每一步决定都会改变未来观测的分布,哪怕开始只是轻微偏差,也可能随着时间放大成严重错误,这就是所谓的分布偏移或误差累积问题。

模仿学习主要学习专家示范的内容,提供给模型的专家示范总希望是高质量的且具代表性的,但人类司机并不完美,总会存在疏忽、习惯性错误或对某些场景不恰当的判断。如果模型只是机械地模仿这些行为,就可能学到不良驾驶习惯。尤其对于人类社会来说,道德和法律层面的约束不是简单靠模仿就能学会的,如何在多方冲突情形下如何取舍、如何展现可辩护的决策过程等,都需要额外的规则与可解释性的支撑。



图片源自:网络

端到端的模仿学习模型还存在内部决策过程不透明的问题,其安全边界难以被严格界定和验证。对于汽车这种涉及生命财产安全的关键领域,监管与认证体系要求系统具备可解释的逻辑或明确的安全保证。因此,单纯依赖数据驱动的模仿学习,在应对复杂多变的长尾场景时,可能面临可验证性不足的挑战。

要把模仿学习做得足够鲁棒,要覆盖足够广的高质量示范数据,这就带来了采集成本高、标注难、隐私与合规等问题。尤其是极端天气、罕见事故或复杂交互场景,本身就少见,要人工制造这些场景又有风险,仿真虽然能补充一部分,但仿真与现实间的差距也会影响模型迁移效果,因此,对于模仿学习来说,数据方面的挑战不容忽视。

最后的话

模仿学习为自动驾驶系统提供了实现拟人化驾驶行为的重要基础,但其数据驱动的黑箱特性在安全验证和长尾场景泛化方面存在局限。想应用好模仿学习,就要将模仿学习置于一个包含规则约束、规划模块及多重安全冗余的混合系统架构中,从而确保其在发挥其高效学习优势的同时,更能确保系统的整体行为符合可解释、可验证的安全规范。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向府治丧!香港各路大佬现身,向佐向太出席,千人相送警戒森严

向府治丧!香港各路大佬现身,向佐向太出席,千人相送警戒森严

银河史记
2026-01-21 13:37:59
赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

赴日中国游客骤减45%,日本转靠欧美游客填补缺口:破4000万大关

土澳的故事
2026-01-20 22:21:57
苦尽甘来!陈光标表示将捐赠1300万,李亚鹏称“德不孤行必有邻”

苦尽甘来!陈光标表示将捐赠1300万,李亚鹏称“德不孤行必有邻”

火山诗话
2026-01-21 18:35:21
40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

牛弹琴123456
2025-12-28 16:35:58
金面具太阳神鸟限时展出,青铜面具“兄弟聚首”,三星堆金沙遗址大展在京开幕

金面具太阳神鸟限时展出,青铜面具“兄弟聚首”,三星堆金沙遗址大展在京开幕

上观新闻
2026-01-19 14:54:08
北京一市民散步时一眼认出明清城砖,数量达上万块!文物部门回应

北京一市民散步时一眼认出明清城砖,数量达上万块!文物部门回应

好笑娱乐君每一天
2026-01-22 12:28:26
中国第3位:陈冬获一级航天功勋奖章,特级仅1位,下一位会是谁?

中国第3位:陈冬获一级航天功勋奖章,特级仅1位,下一位会是谁?

环球科学猫
2026-01-22 11:05:37
中国金球奖前3公布 王钰栋争金童 李昊无缘金手套 邵佳一角逐金帅

中国金球奖前3公布 王钰栋争金童 李昊无缘金手套 邵佳一角逐金帅

我爱英超
2026-01-22 10:54:14
萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

萨尔加多:贝克汉姆当年每天都找我出门,我妻子为此很生气

懂球帝
2026-01-22 11:22:52
洗衣机的12种错误用法,多亏被提醒,90%都做错了!

洗衣机的12种错误用法,多亏被提醒,90%都做错了!

装修秀
2026-01-20 11:40:03
英媒:伊朗抗议活动造成1.6万人死亡,33万人受伤,堪比种族灭绝

英媒:伊朗抗议活动造成1.6万人死亡,33万人受伤,堪比种族灭绝

史政先锋
2026-01-19 22:38:36
水贝市场已禁售铜条

水贝市场已禁售铜条

财联社
2026-01-21 08:48:10
分清寒潮与极寒 专家详解南北冷感差异

分清寒潮与极寒 专家详解南北冷感差异

北青网-北京青年报
2026-01-22 09:54:15
阿门和阿尔瓦拉多一笑泯恩仇,火箭有意引入控卫,小霍勒迪或走人

阿门和阿尔瓦拉多一笑泯恩仇,火箭有意引入控卫,小霍勒迪或走人

阿嚼影视评论
2026-01-22 13:34:25
贝克汉姆长子在说谎?英国媒体爆料婚纱实情:为妮可拉准备了一年

贝克汉姆长子在说谎?英国媒体爆料婚纱实情:为妮可拉准备了一年

译言
2026-01-20 21:53:55
20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

动物奇奇怪怪
2026-01-22 00:23:24
期末不统考,家长群炸了!深圳这波操作是减负还是添忧?

期末不统考,家长群炸了!深圳这波操作是减负还是添忧?

教师吧
2026-01-22 09:56:06
“每次在欧洲吃饭都感觉自己像来上供的。”

“每次在欧洲吃饭都感觉自己像来上供的。”

穷游网
2026-01-20 11:11:24
你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

你知道哪些毁人三观的事情?网友:虽然有点辣眼睛,但确实爱看哦

带你感受人间冷暖
2026-01-19 00:05:09
邹市明创业失败,妻子自曝家庭开支:水费100元,儿子午饭39.5元

邹市明创业失败,妻子自曝家庭开支:水费100元,儿子午饭39.5元

查尔菲的笔记
2026-01-22 14:07:59
2026-01-22 14:59:00
智驾最前沿
智驾最前沿
自动驾驶领域专业的技术、资讯分享平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。
333文章数 11关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

教育
数码
旅游
房产
公开课

教育要闻

时间定了!今年高考全国统考将于6月7日、8日举行

数码要闻

大疆Osmo Pocket 4云台相机库存清单曝光,预估2026Q1发布

旅游要闻

2026年马德里国际旅游展举行

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版