网易首页
36. Advanced policy gradients: natural gradient and TRPO (Schulman) - 3
2年前 917观看
加州大学伯克利分校 2017 深度增强学习课程
大学课程 / 社会学
https://www.youtube.com/playlist?list=PLkFD6_40KJIwTmSbCv9OVJB3YaO4sFwkX CS294-112 Deep Reinforcement Learning Sp17 课程主页:http://rll.berkeley.edu/deeprlcourse/
共57集
7.3万人观看
1
Introduction and course overview (Levine, Finn, Schulman) - 1
26:11
2
Introduction and course overview (Levine, Finn, Schulman) - 2
26:14
3
Introduction and course overview (Levine, Finn, Schulman) - 3
26:08
4
Supervised learning and decision making (Levine) - 1
24:06
5
Supervised learning and decision making (Levine) - 2
24:07
6
Supervised learning and decision making (Levine) - 3
24:03
7
Optimal control and planning (Levine) - 1
21:06
8
Optimal control and planning (Levine) - 2
21:13
9
Optimal control and planning (Levine) - 3
21:03
10
Learning dynamical system models from data (Levine) - 1
27:27
11
Learning dynamical system models from data (Levine) - 2
27:35
12
Learning dynamical system models from data (Levine) - 3
27:22
13
Learning policies by imitating optimal controllers (Levine) - 1
23:05
14
Learning policies by imitating optimal controllers (Levine) - 2
23:08
15
Learning policies by imitating optimal controllers (Levine) - 3
22:58
16
RL definitions, value iteration, policy iteration (Schulman) - 1
17:19
17
RL definitions, value iteration, policy iteration (Schulman) - 2
17:22
18
RL definitions, value iteration, policy iteration (Schulman) - 3
17:18
19
Reinforcement learning with policy gradients (Schulman) - 1
21:48
20
Reinforcement learning with policy gradients (Schulman) - 2
21:54
21
Reinforcement learning with policy gradients (Schulman) - 3
21:42
22
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 1
25:50
23
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 2
25:53
24
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 3
25:42
25
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 1
26:47
26
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 2
26:55
27
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 3
26:41
28
Advanced topics in imitation and safety (Finn) - 1
27:53
29
Advanced topics in imitation and safety (Finn) - 2
27:56
30
Advanced topics in imitation and safety (Finn) - 3
27:47
31
Inverse RL: acquiring objectives from demonstration (Finn) - 1
24:47
32
Inverse RL: acquiring objectives from demonstration (Finn) - 2
24:48
33
Inverse RL: acquiring objectives from demonstration (Finn) - 3
24:47
34
Advanced policy gradients: natural gradient and TRPO (Schulman) - 1
28:05
35
Advanced policy gradients: natural gradient and TRPO (Schulman) - 2
28:08
36
Advanced policy gradients: natural gradient and TRPO (Schulman) - 3
28:02
37
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 1
26:55
38
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 2
27:00
39
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 3
26:51
40
Summary of policy gradients and temporal difference methods (Schulman) - 1
24:06
41
Summary of policy gradients and temporal difference methods (Schulman) - 2
24:10
42
Summary of policy gradients and temporal difference methods (Schulman) - 3
23:59
43
The exploration problem (Schulman) - 1
27:18
44
The exploration problem (Schulman) - 2
27:18
45
The exploration problem (Schulman) - 3
27:17
46
Parallel RL algorithms, open problems and challenges in deep reinforcement - 1
26:14
47
Parallel RL algorithms, open problems and challenges in deep reinforcement - 2
26:22
48
Parallel RL algorithms, open problems and challenges in deep reinforcement - 3
26:11
49
Transfer in Reinforcement Learning (Finn) - 1
28:18
50
Transfer in Reinforcement Learning (Finn) - 2
28:18
51
Transfer in Reinforcement Learning (Finn) - 3
28:16
52
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 1
25:24
53
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 2
25:29
54
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 3
25:17
55
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 1
25:39
56
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 2
25:40
57
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 3
25:33
相关视频
第12/21集 · 15:11
非形式逻辑导论 - 3
大学课程
2022年11月1日
1909观看
第1/37集 · 30:41
【闽南语教程】單元 1.導論 - 1
大学课程
2022年10月31日
7796观看
31:51
名师讲理论 (主观)黄韦博 行政法 导论 - 2
2022年11月4日
1709观看
18:27
年指南针超级系统强化阶段行政法第三十讲 - 1
轻知识
2022年11月1日
1562观看
第80/113集 · 11:11
法理学第二十二章-法价值的一般理论 - 1
大学课程
2022年10月27日
2680观看
10:31
张宇琛 法律职业资格考试 刑法 名师讲理论 绪论刑法总论的理论体系 - 1
2022年11月4日
915观看
19:00
名师讲理论(主客一体)席亦文 三国法 国际法导论 - 3
2022年11月3日
1037观看
第1/89集 · 10:56
【南昌大学公开课:口腔探密】第一章 概论 - 1
大学课程
2022年10月11日
6087观看
第2/57集 · 12:00
【武汉大学-数字图像处理(国家级精品课)课堂录播】1.1-2概论 - 2
大学课程
2022年11月1日
2030观看
第2/132集 · 16:36
引论——第3部分 - 2
大学课程
2022年10月31日
1809观看
10:30
河北大学考研646马克思主义基本原理点睛导论部分 - 1
2022年11月7日
2286观看
第8/27集 · 05:37
【走进哲学的世界(牛津大学公开课)】5.哲学概论小结
大学课程
2022年10月27日
2000观看
11:10
俄罗斯文化概论导论 - 3
轻知识
2022年11月1日
2113观看
第2/80集 · 05:25
海商法绪论:基本理论 - 1
大学课程
2022年11月14日
2204观看
第4/80集 · 11:24
经济法基础(精讲课)第一章第一节 法的本质与特征 - 3
大学课程
2022年11月17日
1924观看
第25/35集 · 04:47
单二部曲式概论与有再现的单二部曲式
大学课程
2022年9月11日
1408观看