目录
1 马尔可夫过程
2 马尔可夫奖励过程
3 马尔可夫决策过程
4 MDP 的扩展
马尔可夫过程
MDP 简介
马尔可夫决策过程正式描述环境用于强化学习,环境完全可观察的地方,即当前状态完全表征了过程
几乎所有 RL 问题都可以形式化为 MDP。
例如
最优控制主要处理连续 MDP
部分可观察的问题可以转化为 MDP
Bandits 是具有一种状态的 MDP
马尔可夫性质
“鉴于现在,未来独立于过去”
定义
州圣
是马尔可夫当且仅当
状态从历史中捕获所有相关信息
一旦知道状态,历史可能会被丢弃
即状态是对未来的充分统计
状态转移矩阵
对于马尔可夫状态 s 和后继状态 s
0
, 状态转移
概率定义为
状态转移矩阵 P 定义了所有的转移概率
状态 s 到所有继承状态 s
其中矩阵的每一行总和为 1。
马尔可夫过程
马尔可夫过程是一个无记忆的随机过程,即一个序列
随机状态 S1, S2, … 具有马尔可夫属性。
学生马尔可夫的样本剧集
从 S1 = C1 开始的链
马尔可夫奖励过程
马尔可夫奖励过程是具有价值的马尔可夫链。
折扣 γ ∈ [0, 1] 是未来奖励的现值
在 k + 1 个时间步后获得奖励 R 的值为 γ
kR。
这将立即奖励置于延迟奖励之上。
γ接近0导致“短视”评价
γ接近1导致评价“有远见”
为什么要打折?
大多数马尔可夫奖励和决策过程都打了折扣。 为什么?
数学上方便打折奖励
避免循环马尔可夫过程中的无限回报
未来的不确定性可能无法充分体现
如果奖励是经济上的,那么即时奖励可能会赚得更多
利息高于延迟奖励
动物/人类行为表现出对即时性的偏好
报酬
有时可以使用未打折的马尔可夫奖励
过程(即 γ = 1),例如 如果所有序列都终止。
价值函数
价值函数 v(s) 给出了状态 s 的长期价值
学生 MRP 的示例退货:
从 S1 = C1 开始, γ =1/2
MRP 的贝尔曼方程
价值函数可以分解为两部分:
即时奖励 Rt+1
后继状态的贴现值 γv(St+1)
贝尔曼方程可以用矩阵简明地表达,v = R + γPv 其中 v 是一个列向量,每个状态有一个条目
贝尔曼方程是一个线性方程
可以直接解决: v = R + γPv (I – γP) v = R v = (I – γP) -1 R 计算复杂度为 O(n 3 ) 对于 n 个状态 仅适用于小型 MRP 的直接解决方案 大型 MRP 有许多迭代方法,例如 动态规划 蒙特卡罗评估 时差学习
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/73555.html