第 2 讲:马尔可夫决策过程

导读:本篇文章讲解 第 2 讲:马尔可夫决策过程,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

 目录

1 马尔可夫过程

2 马尔可夫奖励过程

3 马尔可夫决策过程

4 MDP 的扩展


马尔可夫过程 

MDP 简介

马尔可夫决策过程正式描述环境用于强化学习,环境完全可观察的地方,即当前状态完全表征了过程
几乎所有 RL 问题都可以形式化为 MDP。

例如
        最优控制主要处理连续 MDP
        部分可观察的问题可以转化为 MDP
        Bandits 是具有一种状态的 MDP

马尔可夫性质

“鉴于现在,未来独立于过去”
定义
州圣
是马尔可夫当且仅当
第 2 讲:马尔可夫决策过程
状态从历史中捕获所有相关信息
一旦知道状态,历史可能会被丢弃
即状态是对未来的充分统计

 状态转移矩阵

 
对于马尔可夫状态 s 和后继状态 s
0
, 状态转移
概率定义为

第 2 讲:马尔可夫决策过程

状态转移矩阵 P 定义了所有的转移概率
状态 s 到所有继承状态 s

第 2 讲:马尔可夫决策过程

其中矩阵的每一行总和为 1。

马尔可夫过程

马尔可夫过程是一个无记忆的随机过程,即一个序列
随机状态 S1, S2, … 具有马尔可夫属性。

第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程

 

 

学生马尔可夫的样本剧集
从 S1 = C1 开始的链第 2 讲:马尔可夫决策过程

第 2 讲:马尔可夫决策过程

马尔可夫奖励过程

马尔可夫奖励过程是具有价值的马尔可夫链。 

第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程 

折扣 γ ∈ [0, 1] 是未来奖励的现值
在 k + 1 个时间步后获得奖励 R 的值为 γ
kR。
这将立即奖励置于延迟奖励之上。
γ接近0导致“短视”评价
γ接近1导致评价“有远见” 

第 2 讲:马尔可夫决策过程

为什么要打折?

大多数马尔可夫奖励和决策过程都打了折扣。 为什么?
数学上方便打折奖励
避免循环马尔可夫过程中的无限回报
未来的不确定性可能无法充分体现
如果奖励是经济上的,那么即时奖励可能会赚得更多
利息高于延迟奖励
动物/人类行为表现出对即时性的偏好
报酬
有时可以使用未打折的马尔可夫奖励
过程(即 γ = 1),例如 如果所有序列都终止。

 价值函数

价值函数 v(s) 给出了状态 s 的长期价值

第 2 讲:马尔可夫决策过程

学生 MRP 的示例退货:
从 S1 = C1 开始, γ =1/2 

第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程

MRP 的贝尔曼方程

价值函数可以分解为两部分:
即时奖励 Rt+1
后继状态的贴现值 γv(St+1)

第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程第 2 讲:马尔可夫决策过程

贝尔曼方程可以用矩阵简明地表达,v = R + γPv 其中 v 是一个列向量,每个状态有一个条目

第 2 讲:马尔可夫决策过程

贝尔曼方程是一个线性方程

可以直接解决: v = R + γPv (I – γP) v = R v = (I – γP) -1 R 计算复杂度为 O(n 3 ) 对于 n 个状态 仅适用于小型 MRP 的直接解决方案 大型 MRP 有许多迭代方法,例如 动态规划 蒙特卡罗评估 时差学习

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/73555.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!