网易首页 > 网易号 > 正文 申请入驻

清华突破:自动驾驶AI实现模仿与探索双重学习

0
分享至

这项由清华大学智能产业研究院的陈博奎、龚建涛教授团队,联合华盛顿大学、北京交通大学、香港理工大学等多所院校共同完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:2510.12560v1)。对于关注自动驾驶技术发展的读者,可以通过该编号查询完整论文内容。

当我们学习开车时,通常会经历两个阶段:先跟着教练模仿标准动作,然后在实际道路上通过试错来积累经验。有趣的是,目前的自动驾驶AI系统大多只会"模仿学习"这一种技能——就像一个只会照着教科书开车,但遇到突发情况就不知所措的新手司机。

清华大学的研究团队发现了这个问题的关键所在。他们注意到,现有的自动驾驶系统主要依赖模仿学习,这就好比让学生只通过背诵标准答案来学数学,而不教会他们解题的思路。这种方法在遇到教科书上没有的新情况时,往往会表现得很糟糕,特别是在那些罕见但危险的长尾场景中,比如突然出现的行人或者异常的交通状况。

为了解决这个问题,研究团队提出了一个巧妙的解决方案:让AI系统同时具备模仿能力和探索能力。他们开发了一个名为CoIRL-AD的新框架,这个名字代表着"协作竞争式模仿强化学习"。简单来说,就是在AI的大脑里安装了两个不同的"驾驶员"——一个专门负责模仿专家驾驶,另一个专门负责探索和试错。

这种设计的巧妙之处在于让这两个"驾驶员"既合作又竞争。模仿驾驶员会严格按照专家的示范来行驶,确保基础驾驶技能的可靠性。同时,探索驾驶员会在安全的范围内尝试不同的驾驶策略,从成功和失败中学习经验。当两个驾驶员的表现相近时,它们会和平共处;但当其中一个明显表现更好时,较弱的那个会主动学习强者的经验。

研究团队在这个双重学习系统的基础上,还引入了一个虚拟的"想象世界"。这个想象世界就像一个高度逼真的驾驶模拟器,让探索驾驶员可以在不实际上路的情况下,预测不同行驶策略的后果。这样一来,AI系统就能在真实世界的数据基础上,通过想象来扩展自己的经验范围。

特别值得注意的是,研究团队还发现了一个有趣的现象:传统的驾驶规划通常是"从近到远"——先确定眼前要怎么走,再考虑远处的目标。但他们发现,"从远到近"的反向规划方式实际上更符合人类的驾驶思维。就像我们开车时,通常是先确定要去哪里,然后再决定具体的转弯和变道动作。

在nuScenes和Navsim这两个权威的自动驾驶数据集上,CoIRL-AD系统展现出了显著的优势。与传统的纯模仿学习方法相比,这个新系统的碰撞率降低了18%,在处理罕见和困难场景时的表现也更加出色。更重要的是,当系统在一个城市学习后被部署到另一个完全不同的城市时,它的适应能力明显优于传统方法。

研究团队通过大量实验验证了他们方法的有效性。他们特别构建了两个具有挑战性的测试场景:一个专门包含那些容易导致预测错误的情况,另一个专门包含那些容易引发碰撞的危险场景。在这些困难场景中,CoIRL-AD系统都展现出了比传统方法更强的应对能力。

这项研究的技术创新不仅体现在双重学习架构上,还包括了许多精巧的细节设计。比如,为了让探索驾驶员产生的行驶轨迹更加平滑和合理,研究团队采用了"步骤感知"的探索机制。这种机制确保在每次探索中,只有一个行驶步骤是随机的,其他步骤都采用最优策略,这样既能保证探索的多样性,又能维持轨迹的连贯性。

在实际的训练过程中,研究团队观察到了一个类似人类学习的有趣现象:在训练初期,模仿驾驶员通常表现更好,因为它有明确的专家示范可以学习。但随着训练的深入,探索驾驶员开始展现出优势,因为它通过试错积累了更丰富的应对经验。这种动态变化恰好体现了学习过程的自然规律。

研究团队还进行了详细的消融实验,验证了框架中每个组件的必要性。他们发现,简单地将模仿学习和强化学习的损失函数相加并不能获得理想的效果,反而可能因为梯度冲突导致训练不稳定。只有通过双策略架构和竞争机制,才能真正实现两种学习方式的有效结合。

值得一提的是,这个新系统在推理阶段并不会增加额外的计算开销。两个驾驶员在训练完成后会整合为一个统一的驾驶策略,因此在实际部署时的运行效率与传统方法相当。

从更广泛的意义来看,这项研究为自动驾驶技术的发展提供了一个新的思路。它表明,仅仅依靠模仿学习可能无法让AI系统获得足够的泛化能力来应对复杂多变的真实世界。通过引入探索和试错的机制,AI系统可以像人类一样,不断从经验中学习和改进。

研究团队在论文中也坦率地讨论了当前方法的局限性。他们指出,由于使用的奖励函数相对简单,只考虑了模仿奖励和碰撞奖励,系统在某些复杂场景下的表现仍有改进空间。此外,基于世界模型的仿真虽然能够提供额外的训练数据,但与真实世界之间仍存在一定差距。

尽管存在这些局限性,CoIRL-AD框架已经展现出了巨大的潜力。它不仅在技术层面实现了创新突破,更重要的是为自动驾驶AI系统的学习方式提供了新的思考方向。这种结合模仿与探索的学习范式,很可能会成为未来自动驾驶技术发展的重要趋势。

随着自动驾驶技术逐渐走向实用化,如何让AI系统在保持安全性的同时具备足够的适应能力,始终是一个核心挑战。清华大学团队的这项研究为解决这一挑战提供了一个富有启发性的方案,相信会为整个自动驾驶行业的发展带来积极的推动作用。

Q&A

Q1:CoIRL-AD自动驾驶系统是如何同时进行模仿学习和强化学习的?

A:CoIRL-AD在AI系统内部设置了两个独立的"驾驶员"——模仿驾驶员和探索驾驶员。模仿驾驶员专门学习专家的标准驾驶行为,而探索驾驶员通过在虚拟环境中试错来积累经验。两个驾驶员会定期比较表现,优秀的一方会向较弱的一方传授经验,实现知识共享。

Q2:这种双重学习方法比传统自动驾驶系统有什么优势?

A:传统系统只会模仿,遇到训练数据中没有的情况就容易出错。CoIRL-AD系统碰撞率比传统方法降低了18%,在罕见场景和跨城市部署时表现更好。就像既会背书又会独立思考的学生,比只会背书的学生适应能力更强。

Q3:CoIRL-AD系统的反向规划是什么意思?

A:传统系统是"从近到远"规划,先决定眼前怎么走再考虑远处目标。CoIRL-AD采用"从远到近"的反向规划,先确定最终目的地,再决定具体的转弯变道动作。这更符合人类开车的思维习惯,让AI的驾驶决策更加合理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS 27 将为新机带来分屏显示功能!

iOS 27 将为新机带来分屏显示功能!

花果科技
2026-06-03 17:08:32
四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

阿讯说天下
2026-06-03 03:14:05
上海一女子吐槽老公:每天在家躺着工资却比自己高倍

上海一女子吐槽老公:每天在家躺着工资却比自己高倍

周哥一影视
2026-06-03 09:26:02
中方定性,16国联合军团围剿俄,日本已正式介入

中方定性,16国联合军团围剿俄,日本已正式介入

玲儿爱唱歌
2026-06-03 12:30:42
白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

展望云霄
2026-05-18 22:30:18
俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

闻号说经济
2026-06-02 10:43:10
小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

刘振起观点
2026-06-03 15:35:08
马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

漫川舟船
2026-06-03 09:44:51
送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

上观新闻
2026-06-03 08:22:20
外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

混沌录
2026-06-02 22:58:17
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

月颖资金推动论
2026-06-03 16:44:43
疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

澜归序
2026-06-03 05:43:27
CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

中国篮坛快讯
2026-06-03 15:00:02
重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

听心堂
2026-06-03 16:16:08
中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

风信子的花
2026-06-03 16:32:08
名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

娱圈观察员
2026-06-03 01:18:06
王楚钦上任仅24小时,丑闻频发引争议

王楚钦上任仅24小时,丑闻频发引争议

萧狡科普解说
2026-06-03 13:03:31
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
2026-06-03 17:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

手机
健康
艺术
亲子
家居

手机要闻

小米17T系列官宣支持「徕卡Live动态照片」,6月8日发布

违规干细胞抗衰美容,为何肆无忌惮

艺术要闻

二十年前割麦的场景

亲子要闻

孩子成绩是一门“玄学”,和智商仅半毛钱关系,其余九毛半去哪了

家居要闻

江畔轻奢 观云大宅

无障碍浏览 进入关怀版