网易首页 > 网易号 > 正文 申请入驻

学术分享丨简述基于行为克隆的模仿学习

0
分享至

随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。从去年以来,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,本期与大家分享《简述基于行为克隆的模仿学习》。

基于行为克隆的模仿学习算法的主体是一个监督学习的框架。对于策略学习问题,当策略的动作空间A 是一个离散空间时,在监督学习下可以视为一个标准的分类问题。相对的,当策略的动作空间是连续空间时,问题就成为了一个回归问题。无论是分类问题还是回归问题,在最大似然估计的监督学习框架下,都可以形式化为以下问题:

其中X 代表样本数据,在模仿学习中为专家示教的状态集合。Y 代表样本标签,在模仿学习中为专家示教的动作集合。Pθ(y|x)为θ-参数化的分类器/回归器,本质上是利用极大似然估计对条件概率分布进行学习。

在模型学习中我们相应的需要学习一个参数化的策略πθ (a|s),因此可以直接套用上述的监督学习框架,得到行为克隆算法的基本数学形式如下:

对于基于极大似然估计的监督学习框架,在标签离散的情况下,当我们使用类别分布(Categorical distribution)作为分类器的先验分布时,上式即转化为标准的基于交叉熵成本函数的监督学习问题。类似的,在标签连续的情况下,当我们使用高斯分布(Gaussian distribution)作为回归器的先验时,上式即转化为基于均方误差函数(Mean Squre Error,MSE)的监督学习问题。由此可以套用一般的基于梯度的方法对参数化的策略模型进行优化。当然,当使用线性模型时亦可直接得到闭式的最优参数解。

基于行为克隆的模仿学习整体上思路简单清晰,实现方便。在学习策略的效果上,由于属于一般监督学习的范畴,其泛化性会受到样本数量的限制,亦即会受到归纳偏差(inductive bias)的影响。由于大部分序列决策任务都需要在复杂的世界环境中进行测试,如自动驾驶等,这就使得基于行为克隆的方法表现出的归纳偏差更加明显。探究原因,从本质上讲这主要是源于样本分布的差异。

在行为克隆算法中,我们使用专家示教上的状态的边际分布q(s)训练了一个条件分布p(a|s),因此根据监督学习的原理,该条件分布只能保证在q(s)上取得较好的泛化性能。而实际上专家示教上的边际分布q(s)受限于样本数量的大小,无法很好的覆盖整个状态空间。尤其是在开放世界中,得到一个能覆盖所有环境下的状态分布几乎是不可能的。这就导致了基于行为克隆的模仿学习方法势必会在某些情况下无法达到令人满意的泛化性能。这样的泛化误差我们称为组合误差(compounding error)。图1展示了一个由行为克隆算法学习出的策略上发生组合误差的例子。

图1 组合误差的一个例子。在驾驶策略的行为克隆学习中,一旦车辆进入示教轨迹之外的状态,就难以执行合适的动作以返回正常的轨迹上来,从而导致错误的控制

针对基于行为克隆的模仿学习算法泛化性差的问题,目前有两种主流的解决方案。一种是对MDP 中的状态进行抽象(State abstraction),通过将高维的状态压缩成相对低维度的表示,从而极大的减小物理世界中状态分布的复杂性。进一步的,可以证明进行状态抽象后,达到目标泛化误差所需的样本数量也会明显减少。另一种方法为示教扩充(Dataset Aggregation,DAgger),这种算法的思路是使用在线学习的思想,在使用行为克隆算法训练策略的同时在测试环境执行当前的策略采集新的状态样本,然后由专家来给这些样本进行动作标注,得到扩充的示教后进行下一轮的行为克隆。相比于纯粹的行为克隆算法,DAgger 很好的考虑了示教中状态分布和测试状态分布间的差异,并以此为依据动态的扩充示教以覆盖这些未探索过的状态分布,因此可以取得远超一般行为克隆算法的泛化性能。在图2中,我们分别对这两种方法的主要思想和流程进行了形象的阐述。

图2 两种方法的主要思想和流程示意图

然而DAgger 算法也有明显的缺陷。由于采用了在线学习的机制,需要长时间持续的请求专家补充示教标记。这就带来了极大的工作负担,也给这类算法在真实环境下的应用带来了困难。事实上,DAgger 算法与一般的行为克隆算法并没有本质的差异,它们都不曾脱离使用样本作为模仿学习的监督信号,因而始终受限于需要大量的样本才能达到良好的监督效果。直观地,如果能试图从样本中学习出一个规则,并用该规则作为新的监督信号,那么所需的样本数量就能大大减少。

本文由CAAI认知系统与信息处理专委会供稿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英剧天花板炸裂三季!9.0+神作封印悬疑天花板!!

英剧天花板炸裂三季!9.0+神作封印悬疑天花板!!

民智
2026-02-25 10:20:47
张冬云任四川省副省长,曾任南充市委书记

张冬云任四川省副省长,曾任南充市委书记

澎湃新闻
2026-02-25 16:48:29
疯涨?特朗普,大消息!

疯涨?特朗普,大消息!

魏家东
2026-02-25 08:16:35
中方投了弃权票

中方投了弃权票

第一财经资讯
2026-02-25 11:22:55
逛公园要先付69元拍照费?深圳一免费公园现收费“园中园”引质疑

逛公园要先付69元拍照费?深圳一免费公园现收费“园中园”引质疑

深圳晚报
2026-02-25 12:16:54
广州,有雷又有雨!连续一周

广州,有雷又有雨!连续一周

广州生活美食圈
2026-02-25 12:32:38
太离谱!陕西女子花250元在饭店订年夜饭,对方歇业初一把钱退了

太离谱!陕西女子花250元在饭店订年夜饭,对方歇业初一把钱退了

火山詩话
2026-02-25 14:16:59
克洛普出任皇马主帅的新要求:接受曼联为维尼修斯开出的报价?

克洛普出任皇马主帅的新要求:接受曼联为维尼修斯开出的报价?

夜白侃球
2026-02-25 22:38:06
黄子华再度封神,《夜王》炸裂!54岁的他依旧抗打!

黄子华再度封神,《夜王》炸裂!54岁的他依旧抗打!

乡野小珥
2026-02-25 20:00:48
李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

极目新闻
2026-02-24 18:36:26
一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

芭比衣橱
2026-02-24 09:41:49
苹果新品官宣:2月24日,正式开售

苹果新品官宣:2月24日,正式开售

科技堡垒
2026-02-24 15:01:58
73人死亡!美国、加拿大、英国、法国、俄罗斯,发布“安全警告”

73人死亡!美国、加拿大、英国、法国、俄罗斯,发布“安全警告”

每日经济新闻
2026-02-24 15:35:05
停摆近三十年,广州赛马运动再开闸

停摆近三十年,广州赛马运动再开闸

界面新闻
2026-02-25 13:09:09
重磅!3月1日起,CT检查这三项费用全面取消,全国统一执行!

重磅!3月1日起,CT检查这三项费用全面取消,全国统一执行!

悦心知足
2026-02-25 15:53:58
高速服务区如何盈利?多数人只上厕所或接热水,听保安怎么说?

高速服务区如何盈利?多数人只上厕所或接热水,听保安怎么说?

寄星夜幕星河
2026-02-17 20:39:30
耗资18亿!亚洲最大图书馆即将在武汉建成交付,成2026年最值得期待的中国建筑之一

耗资18亿!亚洲最大图书馆即将在武汉建成交付,成2026年最值得期待的中国建筑之一

越乔
2026-02-25 11:53:27
遭中方当头一棒后,不到24小时,高市喊话称愿与中国沟通对话

遭中方当头一棒后,不到24小时,高市喊话称愿与中国沟通对话

触摸史迹
2026-02-26 00:07:50
头号怨种出现了!仅仅晚5秒过出口,一浙C牌车缴纳1384.9元高速费

头号怨种出现了!仅仅晚5秒过出口,一浙C牌车缴纳1384.9元高速费

火山詩话
2026-02-25 10:53:39
大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大象新闻
2026-02-25 16:21:04
2026-02-26 01:43:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3895文章数 1489关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

亲子
旅游
手机
时尚
公开课

亲子要闻

可爱的孩子,有爱的老师!

旅游要闻

重庆酉阳樱花漫古城,吊脚飞檐藏春归,这才是中式浪漫天花板!

手机要闻

Nothing Phone(4a)手机粉色版外观公布,3月5日正式发布

“复古甜心”穿搭突然大火!春天穿时髦又减龄

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版