强化学习基础

不管现实多么惨不忍睹,都要持之以恒地相信,这只是黎明前短暂的黑暗而已。不要惶恐眼前的难关迈不过去,不要担心此刻的付出没有回报,别再花时间等待天降好运。真诚做人,努力做事!你想要的,岁月都会给你。强化学习基础,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源:原文

【莫烦Python】
Reinforcement Learning:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

简介

1.1 什么是强化学习
1.2 强化学习方法汇总
1.3 为什么用强化学习 Why?
1.4 课程要求

Q-learning

2.1 什么是 Q Leaning
2.2 小例子
2.3 Q-learning 算法更新
2.4 Q-learning 思维决策

Sarsa

3.1 什么是 Sarsa
3.2 Sarsa 算法更新
3.3 Sarsa 思维决策
3.4 什么是 Sarsa(lambda)
3.5 Sarsa-lambda

Deep Q Network

4.1 什么是 DQN
4.2 DQN 算法更新
4.3 DQN 神经网络
4.4 DQN 思维决策
4.5 OpenAI gym 环境库
4.6 Double DQN
4.7 Prioritized Experience Replay (DQN)
4.8 Dueling DQN

Policy Gradient

5.1 什么是 Policy Gradients
5.2 Policy Gradients 算法更新
5.3 Policy Gradients 思维决策

Actor Critic

6.1 什么是 Actor Critic
6.2 Actor Critic
6.3 什么是 DDPG
6.4 Deep Deterministic Policy Gradient (DDPG)
6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
6.6 Asynchronous Advantage Actor-Critic (A3C)
6.7 Distributed Proximal Policy Optimization (DPPO)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/162821.html

(0)
飞熊的头像飞熊bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!