【莫烦Python】
Reinforcement Learning:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
简介
1.1 什么是强化学习
1.2 强化学习方法汇总
1.3 为什么用强化学习 Why?
1.4 课程要求
Q-learning
2.1 什么是 Q Leaning
2.2 小例子
2.3 Q-learning 算法更新
2.4 Q-learning 思维决策
Sarsa
3.1 什么是 Sarsa
3.2 Sarsa 算法更新
3.3 Sarsa 思维决策
3.4 什么是 Sarsa(lambda)
3.5 Sarsa-lambda
Deep Q Network
4.1 什么是 DQN
4.2 DQN 算法更新
4.3 DQN 神经网络
4.4 DQN 思维决策
4.5 OpenAI gym 环境库
4.6 Double DQN
4.7 Prioritized Experience Replay (DQN)
4.8 Dueling DQN
Policy Gradient
5.1 什么是 Policy Gradients
5.2 Policy Gradients 算法更新
5.3 Policy Gradients 思维决策
Actor Critic
6.1 什么是 Actor Critic
6.2 Actor Critic
6.3 什么是 DDPG
6.4 Deep Deterministic Policy Gradient (DDPG)
6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
6.6 Asynchronous Advantage Actor-Critic (A3C)
6.7 Distributed Proximal Policy Optimization (DPPO)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/162821.html