网易首页 > 网易号 > 正文 申请入驻

清华突破:自动驾驶AI实现模仿与探索双重学习

0
分享至


这项由清华大学智能产业研究院的陈博奎、龚建涛教授团队,联合华盛顿大学、北京交通大学、香港理工大学等多所院校共同完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:2510.12560v1)。对于关注自动驾驶技术发展的读者,可以通过该编号查询完整论文内容。

当我们学习开车时,通常会经历两个阶段:先跟着教练模仿标准动作,然后在实际道路上通过试错来积累经验。有趣的是,目前的自动驾驶AI系统大多只会"模仿学习"这一种技能——就像一个只会照着教科书开车,但遇到突发情况就不知所措的新手司机。

清华大学的研究团队发现了这个问题的关键所在。他们注意到,现有的自动驾驶系统主要依赖模仿学习,这就好比让学生只通过背诵标准答案来学数学,而不教会他们解题的思路。这种方法在遇到教科书上没有的新情况时,往往会表现得很糟糕,特别是在那些罕见但危险的长尾场景中,比如突然出现的行人或者异常的交通状况。

为了解决这个问题,研究团队提出了一个巧妙的解决方案:让AI系统同时具备模仿能力和探索能力。他们开发了一个名为CoIRL-AD的新框架,这个名字代表着"协作竞争式模仿强化学习"。简单来说,就是在AI的大脑里安装了两个不同的"驾驶员"——一个专门负责模仿专家驾驶,另一个专门负责探索和试错。

这种设计的巧妙之处在于让这两个"驾驶员"既合作又竞争。模仿驾驶员会严格按照专家的示范来行驶,确保基础驾驶技能的可靠性。同时,探索驾驶员会在安全的范围内尝试不同的驾驶策略,从成功和失败中学习经验。当两个驾驶员的表现相近时,它们会和平共处;但当其中一个明显表现更好时,较弱的那个会主动学习强者的经验。

研究团队在这个双重学习系统的基础上,还引入了一个虚拟的"想象世界"。这个想象世界就像一个高度逼真的驾驶模拟器,让探索驾驶员可以在不实际上路的情况下,预测不同行驶策略的后果。这样一来,AI系统就能在真实世界的数据基础上,通过想象来扩展自己的经验范围。

特别值得注意的是,研究团队还发现了一个有趣的现象:传统的驾驶规划通常是"从近到远"——先确定眼前要怎么走,再考虑远处的目标。但他们发现,"从远到近"的反向规划方式实际上更符合人类的驾驶思维。就像我们开车时,通常是先确定要去哪里,然后再决定具体的转弯和变道动作。

在nuScenes和Navsim这两个权威的自动驾驶数据集上,CoIRL-AD系统展现出了显著的优势。与传统的纯模仿学习方法相比,这个新系统的碰撞率降低了18%,在处理罕见和困难场景时的表现也更加出色。更重要的是,当系统在一个城市学习后被部署到另一个完全不同的城市时,它的适应能力明显优于传统方法。

研究团队通过大量实验验证了他们方法的有效性。他们特别构建了两个具有挑战性的测试场景:一个专门包含那些容易导致预测错误的情况,另一个专门包含那些容易引发碰撞的危险场景。在这些困难场景中,CoIRL-AD系统都展现出了比传统方法更强的应对能力。

这项研究的技术创新不仅体现在双重学习架构上,还包括了许多精巧的细节设计。比如,为了让探索驾驶员产生的行驶轨迹更加平滑和合理,研究团队采用了"步骤感知"的探索机制。这种机制确保在每次探索中,只有一个行驶步骤是随机的,其他步骤都采用最优策略,这样既能保证探索的多样性,又能维持轨迹的连贯性。

在实际的训练过程中,研究团队观察到了一个类似人类学习的有趣现象:在训练初期,模仿驾驶员通常表现更好,因为它有明确的专家示范可以学习。但随着训练的深入,探索驾驶员开始展现出优势,因为它通过试错积累了更丰富的应对经验。这种动态变化恰好体现了学习过程的自然规律。

研究团队还进行了详细的消融实验,验证了框架中每个组件的必要性。他们发现,简单地将模仿学习和强化学习的损失函数相加并不能获得理想的效果,反而可能因为梯度冲突导致训练不稳定。只有通过双策略架构和竞争机制,才能真正实现两种学习方式的有效结合。

值得一提的是,这个新系统在推理阶段并不会增加额外的计算开销。两个驾驶员在训练完成后会整合为一个统一的驾驶策略,因此在实际部署时的运行效率与传统方法相当。

从更广泛的意义来看,这项研究为自动驾驶技术的发展提供了一个新的思路。它表明,仅仅依靠模仿学习可能无法让AI系统获得足够的泛化能力来应对复杂多变的真实世界。通过引入探索和试错的机制,AI系统可以像人类一样,不断从经验中学习和改进。

研究团队在论文中也坦率地讨论了当前方法的局限性。他们指出,由于使用的奖励函数相对简单,只考虑了模仿奖励和碰撞奖励,系统在某些复杂场景下的表现仍有改进空间。此外,基于世界模型的仿真虽然能够提供额外的训练数据,但与真实世界之间仍存在一定差距。

尽管存在这些局限性,CoIRL-AD框架已经展现出了巨大的潜力。它不仅在技术层面实现了创新突破,更重要的是为自动驾驶AI系统的学习方式提供了新的思考方向。这种结合模仿与探索的学习范式,很可能会成为未来自动驾驶技术发展的重要趋势。

随着自动驾驶技术逐渐走向实用化,如何让AI系统在保持安全性的同时具备足够的适应能力,始终是一个核心挑战。清华大学团队的这项研究为解决这一挑战提供了一个富有启发性的方案,相信会为整个自动驾驶行业的发展带来积极的推动作用。

Q&A

Q1:CoIRL-AD自动驾驶系统是如何同时进行模仿学习和强化学习的?

A:CoIRL-AD在AI系统内部设置了两个独立的"驾驶员"——模仿驾驶员和探索驾驶员。模仿驾驶员专门学习专家的标准驾驶行为,而探索驾驶员通过在虚拟环境中试错来积累经验。两个驾驶员会定期比较表现,优秀的一方会向较弱的一方传授经验,实现知识共享。

Q2:这种双重学习方法比传统自动驾驶系统有什么优势?

A:传统系统只会模仿,遇到训练数据中没有的情况就容易出错。CoIRL-AD系统碰撞率比传统方法降低了18%,在罕见场景和跨城市部署时表现更好。就像既会背书又会独立思考的学生,比只会背书的学生适应能力更强。

Q3:CoIRL-AD系统的反向规划是什么意思?

A:传统系统是"从近到远"规划,先决定眼前怎么走再考虑远处目标。CoIRL-AD采用"从远到近"的反向规划,先确定最终目的地,再决定具体的转弯变道动作。这更符合人类开车的思维习惯,让AI的驾驶决策更加合理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026第一部下饭美剧,终于来了

2026第一部下饭美剧,终于来了

来看美剧
2026-01-13 21:51:51
百度某员工:37岁,房贷1万7。全职媳妇买榴莲200多,网购1万多

百度某员工:37岁,房贷1万7。全职媳妇买榴莲200多,网购1万多

蚂蚁大喇叭
2026-01-12 11:23:28
合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

观察鉴娱
2026-01-13 10:47:17
这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

DrX说
2025-12-16 14:36:14
波兰外长终于承认了,如果中国真的在帮俄罗斯,俄乌战争早结束了

波兰外长终于承认了,如果中国真的在帮俄罗斯,俄乌战争早结束了

达文西看世界
2026-01-13 18:44:08
伊朗外长:伊朗做好了应对一切可能的准备

伊朗外长:伊朗做好了应对一切可能的准备

环球网资讯
2026-01-13 06:08:07
1月13日俄乌最新:普京面临艰难的选择

1月13日俄乌最新:普京面临艰难的选择

西楼饮月
2026-01-13 19:35:53
伊朗已经认怂了!美国总统特朗普表示,伊朗呼吁展开核计划谈判

伊朗已经认怂了!美国总统特朗普表示,伊朗呼吁展开核计划谈判

止戈军是我
2026-01-12 11:12:41
成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

广西阿妹香香
2026-01-13 18:53:48
Netflix这部北欧新剧,看完后劲很大

Netflix这部北欧新剧,看完后劲很大

来看美剧
2026-01-12 19:05:03
退休10年后被查的“老虎”:8万元入股张家界大峡谷,退居“二线”后获利数千万元

退休10年后被查的“老虎”:8万元入股张家界大峡谷,退居“二线”后获利数千万元

上观新闻
2026-01-13 13:04:18
美军首次打击,猛料曝光!

美军首次打击,猛料曝光!

环球时报国际
2026-01-14 00:18:41
麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

麦当劳缩水实锤?网友爆料供应商早换了,评论区一言难尽,为啥

你食不食油饼
2026-01-11 08:41:12
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-01-12 13:00:07
广东两将复苏太重要!杜润旺可激活焦泊乔,胡明轩终结力量回归!

广东两将复苏太重要!杜润旺可激活焦泊乔,胡明轩终结力量回归!

篮球资讯达人
2026-01-13 23:35:12
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
山东一区长任职“空天信息大学”(筹)

山东一区长任职“空天信息大学”(筹)

山东教育
2026-01-13 17:22:24
官方披露!马杜罗瑞士个人账户坐拥127吨黄金

官方披露!马杜罗瑞士个人账户坐拥127吨黄金

霹雳炮
2026-01-13 22:37:09
美以联军将突袭伊朗

美以联军将突袭伊朗

星火聊天下
2026-01-11 09:06:49
16GB+1TB!新机曝光:搭载骁龙8 Elite Gen 5+2亿像素镜头!

16GB+1TB!新机曝光:搭载骁龙8 Elite Gen 5+2亿像素镜头!

科技堡垒
2026-01-11 11:47:30
2026-01-14 03:31:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6864文章数 546关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

房产
艺术
本地
手机
公开课

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

艺术要闻

461米!14亿美元!越南第一高楼,形如“竹捆”

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

手机要闻

三星S26+、Ultra量产,S26+升级或受限?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版