网易首页 > 网易号 > 正文 申请入驻

深度强化学习-深度Q网络(DQN)介绍

0
分享至

原标题 | Deep Reinforcement Learning. Introduction. Deep Q Network (DQN) algorithm.
作者 | Markus Buchholz
译者 | qianyuhappy、AI小山
1.引言

由DeepDream生成的图像

原始的深度强化学习是纯强化学习,其典型问题为马尔科夫决策过程(MDP)。马尔科夫决策过程包含一组状态S和动作A。状态的转换是通过概率P,奖励R和一个折衷参数gamma决定的。概率转换P反映了转换和状态转变的奖励之间的关系,状态和奖励仅依赖上一时间步的状态和动作。

强化学习为Agent定义了环境,来实现某些动作以最大化奖励(这些动作根据policy采取)。对Agent的优化行为的基础由Bellman方程定义,这是一种广泛用于求解实际优化问题的方法。为了解决Bellman优化问题,我们使用了一种动态编程的方法。

当Agent存在于环境中并转换到另一个状态(位置)时,我们需要估计状态V(s)(位置)-状态值函数的值。一旦我们知道了每个状态的值,我们就可以找出执行Q(S, A)-动作值函数的最佳方法(只需遵循值最高的状态)。

这两个映射或函数相关性很高,可以帮助我们找到问题的最佳策略。从状态值函数我们可以看出遵循策略的Agent,处于的S状态有多好。

符号解释:

E[X]—随机变量X的期望

?—policy

Gt—t时刻的折现收益

γ—折现率

但是,动作值函数q(s,a)是从状态S开始,采取动作A,并遵循策略π的折现收益,并告诉我们从特定状态采取特定动作的效果。

很明显,状态值函数和Q函数之间的区别在于值函数体现状态的良好性,而Q函数体现状态中的动作的良好性。

MDP由Bellman方程求解,Bellman方程是以美国数学家Richard Bellman的名字命名的。该方程有助于寻找最优的策略和价值函数。代理根据所施加的策略选择操作(策略——正式地说,策略定义为每种可能状态下操作的概率分布)。代理可以遵循的不同策略意味着状态的不同值函数。然而,如果目标是使收集到的奖励最大化,我们必须找到最好的可能的政策,称为最优政策。

另一方面,最佳状态值函数的值,比所有其它值函数(最大返回值)都要大,因此,最佳值函数也以通过代入最大Q值来进行估算:

最后,值函数的贝尔曼等式(Bellman equation)可表示如下:

类似地,Q函数的贝尔曼等式可表示如下:

基于最佳状态值函数以及上述的状态值函数、动作值函数的等式,我们可以写出最终的最佳值函数的等式,该等式称作贝尔曼最佳等式:

通常,强化学习的问题通过Q学习算法来解决。这里,如上所言,智能体与环境交互并接收奖励。目标是用足最佳策略(选择动作的方法),以取得最大奖励。在学习过程中,智能体更新Q(S,A)表(当回合结束时,任务完成,目标达到)。

Q学习算法通过以下步骤实现:

1、用随机数初始化Q(S,A)表。

2、用epsilon贪心策略选取一个行动,然后进入下一个状态S’

3、根据更新等式来更新前一个状态的Q值:

最好是从解决来自OpenAI gym的 Frozen Lake 开始。

在冻湖环境里(最好能熟悉OpenAI的描述),智能体可处理16种状态,执行4个不同的动作(在一个状态中)。在这种情况下,我们的A(S,A)表的大小是16x4。

https://gist.github.com/markusbuchholz/af4e5b5891de6d3cf5528f83b6198311#file-qlearning_algorithm-py

请注意上面给出的Q算法属于时序差分学习算法(Temporal Difference Learning algorithms)(由Richard S. Sutton于1988年提出)。Q算法是一种线下策略(off-policy)算法(这种算法具有从旧的历史数据学习的能力)。Q学习算法的扩展是SARSA(在线策略(on-policy)算法)。唯一区别在于Q(S,A)表的更新:

2. 深度强化学习(深度Q网络--DNQ)

当所有可到达的状态处于可控(能够迭代)并且能存储在计算机RAM中时,强化学习对于环境来说是足够好用的。然而,当环境中的状态数超过现代计算机容量时(Atari游戏有12833600个状态),标准的强化学习模式就不太有效了。而且,在真实环境中,智能体必须面对连续状态(不离散),连续变量和连续控制(动作)的问题。

知道了智能体所处的环境的复杂性(状态数量,连续控制),标准的、定义明确的强化学习Q表就得被深度神经网络(Q网络)取代了,后者可以把环境状态映射为智能体动作(非线性逼近)。网络架构,网络超参数的选择以及学习都在训练阶段(Q网络权重的学习)中完成。DQN允许智能体探索非结构化的环境并获取知识,经过时间积累,他们可以模仿人类的行为。

3. 学习算法DQN

下图(在训练过程中)描述了DQN的核心概念,图中,Q网络做非线性逼近,把状态映射为动作值。

在训练过程中,智能体与环境交互,并接收数据,这些数据在Q网络的学习过程中会用到。智能体探索环境,建立一个转换和动作输出的全图。开始时,随机进行动作,随着时间推移,这样做越来越没效果。在探索环境时,智能体尽量查询Q网络(逼近)以决定如何行动。我们把这种方式(综合了随机行为和Q网络查询)称为epsilon贪心方法(epsilon贪心动作选择块),也就是说利用概率超参数epsilon在随机和Q策略间进行选择。

我们所讲的Q学习算法的核心来自于监督学习。

如前所述,我们的目标是用深度神经逼近一个复杂的非线性函数Q(S,A)。

跟监督学习一样,在DQN中,我们定义损失函数为目标和预测值之间的方差,我们也更新权重尽量减少损失(假定智能体从一个状态转换到另一个状态,进行了某个动作a,获取奖励r)。

在学习过程中,我们使用两个不相关的Q网络(Q_network_local和Q_network_target)来计算预测值(权重θ)和目标值(权重θ’)。经过若干步骤后,目标网络会被冻结,然后拷贝实际的Q网络的权重到目标网络权重。冻结目标Q网络一段时间再用实际Q网络的权重更新其权重,可以稳定训练过程。

图1. DQN算法概念

为使训练过程更稳定(我们要避免用比较关联的数据来训练网络,如果基于连续更新最后转换来进行训练的话, 这种情况就有可能发生),我们引入重播缓冲区,它能记住智能体所经历的行为。然后,用重播缓冲区里的随机样本来进行训练(这可以减少智能体的经历之间的关联性,并有助于智能体从更广泛的经历中进行学习)。

DQN算法可描述如下:

1. 初始化重播缓冲区。

2. 预处理环境,并把状态S输入DQN, 后者会返回该状态中所有可能的动作的Q值。

3. 用epsilon贪心策略选取一个动作:当有概率epsilon时,我们选择随机动作A,当有概率1-epsilon时,选取具有最高Q值的动作,例如A=argmax(Q(S, A, θ))。

4. 选择了动作A后,智能体在状态S中执行所选的动作,并进行到新状态S ,接收奖励R。

5. 把转换存储在重播缓冲中,记作 。 。

6. 下一步,从重播缓冲区中抽取随机批次的转换,并用以下公式计算损失:

7. 针对实际网络参数,执行梯度下降,以使损失最小化。

8. 每隔k步之后,拷贝实际网络权重到目标网络权重中。

9. 重复这些步骤M回合。

4. 工程设置.结果.

在这一段中,我展示Udacity(深度强化学习)的工程代码的结果。

a. 工程的目标

本工程的目标是训练智能体如何在方块环境中通过移动来采集黄色香蕉。工程要求在100个连续回合中获取+13的平均分。

b. 在导航工程中,使用下列参数设置神经网络架构和超参数:

以下是每回合的奖励图,显示出智能体在玩了2247回合后,能收到的平均奖励(超过100回合)有至少+13。

Q网络架构:

使用的超参数:

BUFFER_SIZE = int(1e5) # 重播缓冲区大小
BATCH_SIZE = 64 # 最小批量大小
GAMMA = 0.99 # 折扣率
TAU = 1e-3 # 用于目标参数的软更新
LR = 5e-4 # 学习率
UPDATE_EVERY = 4 # 更快网络的快慢
Epsilon start = 1.0
Epsilon start = 0.01
Epsilon decay = 0.999

图2. 智能体学习的平均得分

5. 未来工作的想法

如果有深度学习的相关经验,那么未来工作将主要集中于图像处理方面(从像素中学习)。下图展示了DQN的架构,图中,我们输入游戏画面,Q网络逼近游戏状态中所有动作的Q值。动作由我们讨论过的DQN算法进行选择。

图3. 从像素学习的概念

其次,未来的工作将集中在生成一个决斗(Dueling)式DQN。在这个新的架构中,我们指定新的优势函数,这个函数计算出智能体执行的一个动作,比其它动作好了多少(优势可为正也可为负)。

Dueling DQN架构与上面讲的DQN相同,只不过最后的全连接层分成两股(见下图所描述)。

若环境的一个状态有确定数量的动作空间,绝大多数计算出来的动作对状态没有什么影响。此外,有些动作有冗余效应。在这种情况下,新的dueling DQN将会比DQN架构估算出来的Q值更精确。

其中一股计算值函数,另一股计算优势函数(用于决定哪个动作更优)。

图4. Dueling DQN架构

最后,我们考虑一下从人类的偏好中进行学习 (OpenAI和Deep Mind) 。这个新概念的核心思想是从人类的反馈中学习。接收人类反馈的智能体,将尽力进行人类期望的动作,并相应地设置奖励。人类与智能体的直接交互 ,会有助于降低设计奖励函数和复杂的目标函数的难度。

你可以通过我的Github找到本工程的全部源码:

https://github.com/markusbuchholz/deep-reinforcement-learning/tree/master/p1_navigation

本文编辑:王立鱼

英语原文:https://medium.com/@markus.x.buchholz/deep-reinforcement-learning-introduction-deep-q-network-dqn-algorithm-fb74bf4d68621

想要继续查看该篇文章相关链接和参考文献?

福利大放送——满满的干货课程免费送!

「好玩的Python:从数据挖掘到深度学习」该课程涵盖了从Python入门到CV、NLP实践等内容,是非常不错的深度学习入门课程,共计9节32课时,总长度约为13个小时。。

课程页面:https://ai.yanxishe.com/page/domesticCourse/37

「计算机视觉基础入门课程」本课程主要介绍深度学习在计算机视觉方向的算法与应用,涵盖了计算机视觉的历史与整个课程规划、CNN的模型原理与训练技巧、计算机视觉的应用案例等,适合对计算机视觉感兴趣的新人。

课程页面:https://ai.yanxishe.com/page/domesticCourse/46

现AI研习社将两门课程免费开放给社区认证用户,只要您在认证时在备注框里填写「Python」,待认证通过后,即可获得该课程全部解锁权限。心动不如行动噢~

认证方式:https://ai.yanxishe.com/page/blogDetail/13999

雷锋网雷锋网雷锋网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚洲水塔崩塌!二十亿人水源告急

亚洲水塔崩塌!二十亿人水源告急

天气观察站
2026-06-01 18:50:12
随着莱万哑火+比分定格0-2,波兰不敌世界第32,遭遇2连败

随着莱万哑火+比分定格0-2,波兰不敌世界第32,遭遇2连败

侧身凌空斩
2026-06-01 01:26:11
洗澡可能影响寿命!医生再次提醒:52岁以后,牢记洗澡“5不要”

洗澡可能影响寿命!医生再次提醒:52岁以后,牢记洗澡“5不要”

芹姐说生活
2026-05-28 23:24:36
区区副厅级干部回国,17人到机场迎接,河南省委书记带头减排场

区区副厅级干部回国,17人到机场迎接,河南省委书记带头减排场

阿离家居
2026-06-01 14:29:14
德国工程师想不通:中国能造航母,为何一个高端轴承造不好?

德国工程师想不通:中国能造航母,为何一个高端轴承造不好?

国际阿尝
2026-05-31 22:39:01
马科斯预料到败选结局?暗示莎拉当选总统后,不要推翻目前的政策

马科斯预料到败选结局?暗示莎拉当选总统后,不要推翻目前的政策

北纬的咖啡豆
2026-06-01 19:26:48
上海,最好吃的不是生煎和小笼‌,而是这10样

上海,最好吃的不是生煎和小笼‌,而是这10样

风烟食录
2026-05-27 06:22:19
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
河南一家三口被灭门惨案再起风波,没想到结局竟然是这样……

河南一家三口被灭门惨案再起风波,没想到结局竟然是这样……

脆皮先生
2026-03-24 19:58:30
国产新伟哥上市!舌下含服15分钟起效,不伤血管,中老年男性适用

国产新伟哥上市!舌下含服15分钟起效,不伤血管,中老年男性适用

思思夜话
2026-06-01 15:24:26
电车的“免费午餐”结束了:养路费改革的必然与公平

电车的“免费午餐”结束了:养路费改革的必然与公平

民间胡扯老哥
2026-05-30 06:39:32
农村“假有钱人”的“5大标志”,太准了,看看你村有没有

农村“假有钱人”的“5大标志”,太准了,看看你村有没有

三农雷哥
2026-05-31 16:21:44
骨瘦如柴、满口假牙、形似骷髅,“塑料美人”扎堆,难怪广电批评

骨瘦如柴、满口假牙、形似骷髅,“塑料美人”扎堆,难怪广电批评

姩姩有娱
2026-05-30 14:31:11
罕见!土伦杯U19国足以小打大还赢球,不解:多打1人反而不会踢了

罕见!土伦杯U19国足以小打大还赢球,不解:多打1人反而不会踢了

足球大腕
2026-06-01 00:01:18
巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

巴塞罗那为阿森纳目标标价2500万欧,已开启出售可能

日常碎碎念啊
2026-06-01 01:54:46
2026款奔驰GLS即将入华:大灯升级、3.0T轻混,海外信息解析

2026款奔驰GLS即将入华:大灯升级、3.0T轻混,海外信息解析

华庭讲美食
2026-06-01 14:13:01
马斯克说中了!当今世界抢的不是芯片,而是中国20万一台的变压器

马斯克说中了!当今世界抢的不是芯片,而是中国20万一台的变压器

潮鹿逐梦
2026-05-20 00:22:42
原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

另子维爱读史
2025-12-06 22:09:07
19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

丫头舫
2025-09-22 20:39:00
2026-06-01 20:35:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69565文章数 656138关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

浙江一600年古树迁移后死亡 镇领导被指给60万封口费

头条要闻

浙江一600年古树迁移后死亡 镇领导被指给60万封口费

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

吉利汽车5月销量23.76万辆 连续三月双增创出口新高

态度原创

家居
本地
数码
健康
公开课

家居要闻

自信舒展 高背座椅

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

追觅MOVA TPEAK Open体验:开放声场耳机也能做「六边形战士」

干细胞临床研究向患者收费?别踩坑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版