网易首页
20. Reinforcement learning with policy gradients (Schulman) - 2
2年前 890观看
加州大学伯克利分校 2017 深度增强学习课程
大学课程 / 社会学
https://www.youtube.com/playlist?list=PLkFD6_40KJIwTmSbCv9OVJB3YaO4sFwkX CS294-112 Deep Reinforcement Learning Sp17 课程主页:http://rll.berkeley.edu/deeprlcourse/
共57集
7.3万人观看
1
Introduction and course overview (Levine, Finn, Schulman) - 1
26:11
2
Introduction and course overview (Levine, Finn, Schulman) - 2
26:14
3
Introduction and course overview (Levine, Finn, Schulman) - 3
26:08
4
Supervised learning and decision making (Levine) - 1
24:06
5
Supervised learning and decision making (Levine) - 2
24:07
6
Supervised learning and decision making (Levine) - 3
24:03
7
Optimal control and planning (Levine) - 1
21:06
8
Optimal control and planning (Levine) - 2
21:13
9
Optimal control and planning (Levine) - 3
21:03
10
Learning dynamical system models from data (Levine) - 1
27:27
11
Learning dynamical system models from data (Levine) - 2
27:35
12
Learning dynamical system models from data (Levine) - 3
27:22
13
Learning policies by imitating optimal controllers (Levine) - 1
23:05
14
Learning policies by imitating optimal controllers (Levine) - 2
23:08
15
Learning policies by imitating optimal controllers (Levine) - 3
22:58
16
RL definitions, value iteration, policy iteration (Schulman) - 1
17:19
17
RL definitions, value iteration, policy iteration (Schulman) - 2
17:22
18
RL definitions, value iteration, policy iteration (Schulman) - 3
17:18
19
Reinforcement learning with policy gradients (Schulman) - 1
21:48
20
Reinforcement learning with policy gradients (Schulman) - 2
21:54
21
Reinforcement learning with policy gradients (Schulman) - 3
21:42
22
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 1
25:50
23
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 2
25:53
24
Learning Q-functions: Q-learning, SARSA, and others (Schulman) - 3
25:42
25
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 1
26:47
26
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 2
26:55
27
Advanced Q-learning: replay buffers, target networks, double Q-learning (Sc - 3
26:41
28
Advanced topics in imitation and safety (Finn) - 1
27:53
29
Advanced topics in imitation and safety (Finn) - 2
27:56
30
Advanced topics in imitation and safety (Finn) - 3
27:47
31
Inverse RL: acquiring objectives from demonstration (Finn) - 1
24:47
32
Inverse RL: acquiring objectives from demonstration (Finn) - 2
24:48
33
Inverse RL: acquiring objectives from demonstration (Finn) - 3
24:47
34
Advanced policy gradients: natural gradient and TRPO (Schulman) - 1
28:05
35
Advanced policy gradients: natural gradient and TRPO (Schulman) - 2
28:08
36
Advanced policy gradients: natural gradient and TRPO (Schulman) - 3
28:02
37
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 1
26:55
38
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 2
27:00
39
Policy gradient variance reduction and actor-critic algorithms (Schulman) - 3
26:51
40
Summary of policy gradients and temporal difference methods (Schulman) - 1
24:06
41
Summary of policy gradients and temporal difference methods (Schulman) - 2
24:10
42
Summary of policy gradients and temporal difference methods (Schulman) - 3
23:59
43
The exploration problem (Schulman) - 1
27:18
44
The exploration problem (Schulman) - 2
27:18
45
The exploration problem (Schulman) - 3
27:17
46
Parallel RL algorithms, open problems and challenges in deep reinforcement - 1
26:14
47
Parallel RL algorithms, open problems and challenges in deep reinforcement - 2
26:22
48
Parallel RL algorithms, open problems and challenges in deep reinforcement - 3
26:11
49
Transfer in Reinforcement Learning (Finn) - 1
28:18
50
Transfer in Reinforcement Learning (Finn) - 2
28:18
51
Transfer in Reinforcement Learning (Finn) - 3
28:16
52
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 1
25:24
53
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 2
25:29
54
Neural Architecture Search with Reinforcement Learning: Quoc Le and Barret Z - 3
25:17
55
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 1
25:39
56
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 2
25:40
57
Generalization and Safety in Reinforcement Learning and Control: Aviv Tamar - 3
25:33
相关视频
07:55
“终点由我不由天!”论文致谢刷屏博士黄国平母校演讲
演讲
2021年6月28日
8.3万观看
第58/81集 · 23:03
斯蒂芬·施瓦茨曼的客座演讲 - 1
大学课程
2022年10月27日
3311观看
第11/12集 · 11:15
诗与禅 复旦大学公开课(全7集)(7) - 1
大学课程
2022年10月31日
1.6万观看
05:53
导师寄语精选版本 - 1
2022年11月2日
2426观看
05:38
复旦大学陈果演讲:“对不起”别总挂嘴上,理由再次颠覆你的三观,厉害!
演讲
2023年8月8日
2.4万观看
第27/41集 · 11:43
南开大学人的宣言-人,要认识你自己 20讲 朱进富主讲(20) - 3
大学课程
2022年11月5日
6208观看
第2/3集 · 28:31
【系列讲座第四讲】社会科学定类数据分析与应用| 厦门大学社会与人类学院 陈福平教授 - 2
大学课程
2022年11月9日
948观看
第3/3集 · 28:58
【系列讲座第三讲】“中国之治”的传统文化资源 | 厦门大学新闻传播学院 谢清果教授 - 3
大学课程
2022年11月9日
2235观看
25:23
复旦大学通识课:姜鹏教授告诉你对历史的认知不应该只有一种
大学课程
2020年3月11日
9.2万观看
第36/90集 · 11:39
《精神分析引论》导读 复旦大学公开课 (全46集)(十六) - 3
大学课程
2023年8月8日
1831观看
29:37
清华大学教授刘嘉最新演讲,建议反复观看
轻知识
1年前
6.2万观看
17:55
【直播回放】周黎安教授《从经济学视角洞察教育之于国运与人生》 - 2
2022年11月9日
2216观看
01:20
【亲爱的来吃饭】校友篇·励志!从专升本开始,女博士后两年一步走出大山!
2023年8月8日
1487观看
38:31
温铁军教授北京大学讲座: 《全球危机与中国乡村振兴战略!》 - 1
轻知识
2022年11月7日
7154观看
第23/23集 · 19:02
复旦大学 凝聚态 潘庶亨视频教程(2-010) - 3
大学课程
2022年11月6日
1907观看
52:59
清华大学图灵院士姚期智桂电讲座 - 3
2022年11月5日
1477观看