第 2 讲：马尔可夫决策过程

小半 • 2023年1月12日下午2:09 • 技术随笔 • 阅读 300

导读：本篇文章讲解第 2 讲：马尔可夫决策过程，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

目录

1 马尔可夫过程

2 马尔可夫奖励过程

3 马尔可夫决策过程

4 MDP 的扩展

马尔可夫过程

MDP 简介

马尔可夫决策过程正式描述环境用于强化学习，环境完全可观察的地方，即当前状态完全表征了过程
几乎所有 RL 问题都可以形式化为 MDP。

例如
        最优控制主要处理连续 MDP
        部分可观察的问题可以转化为 MDP
        Bandits 是具有一种状态的 MDP

马尔可夫性质

“鉴于现在，未来独立于过去”
定义
州圣
是马尔可夫当且仅当

状态从历史中捕获所有相关信息
一旦知道状态，历史可能会被丢弃
即状态是对未来的充分统计

状态转移矩阵

对于马尔可夫状态 s 和后继状态 s
0
, 状态转移
概率定义为

状态转移矩阵 P 定义了所有的转移概率
状态 s 到所有继承状态 s

其中矩阵的每一行总和为 1。

马尔可夫过程

马尔可夫过程是一个无记忆的随机过程，即一个序列
随机状态 S1, S2, … 具有马尔可夫属性。

学生马尔可夫的样本剧集
从 S1 = C1 开始的链

马尔可夫奖励过程

马尔可夫奖励过程是具有价值的马尔可夫链。

折扣 γ ∈ [0, 1] 是未来奖励的现值
在 k + 1 个时间步后获得奖励 R 的值为 γ
kR。
这将立即奖励置于延迟奖励之上。
γ接近0导致“短视”评价
γ接近1导致评价“有远见”

为什么要打折？

大多数马尔可夫奖励和决策过程都打了折扣。为什么？
数学上方便打折奖励
避免循环马尔可夫过程中的无限回报
未来的不确定性可能无法充分体现
如果奖励是经济上的，那么即时奖励可能会赚得更多
利息高于延迟奖励
动物/人类行为表现出对即时性的偏好
报酬
有时可以使用未打折的马尔可夫奖励
过程（即 γ = 1），例如如果所有序列都终止。

价值函数

价值函数 v(s) 给出了状态 s 的长期价值

学生 MRP 的示例退货：
从 S1 = C1 开始， γ =1/2

MRP 的贝尔曼方程

价值函数可以分解为两部分：
即时奖励 Rt+1
后继状态的贴现值 γv(St+1)

贝尔曼方程可以用矩阵简明地表达，v = R + γPv 其中 v 是一个列向量，每个状态有一个条目

贝尔曼方程是一个线性方程

可以直接解决： v = R + γPv (I – γP) v = R v = (I – γP) -1 R 计算复杂度为 O(n 3 ) 对于 n 个状态仅适用于小型 MRP 的直接解决方案大型 MRP 有许多迭代方法，例如动态规划蒙特卡罗评估时差学习

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/73555.html

赞 (0)

0 0

技术随笔

【SSM】篇三：Spring事务和SpringMVC入门案例

000350

飞熊
2023年5月29日
技术随笔

SpringBoot学习笔记【part11】Web开发——请求参数的注解

000230

小半
2023年2月7日
技术随笔

Java实现简易21点比大小游戏。（玩家VS电脑）

000482

飞熊
2023年5月26日
技术随笔

VSCode中使用cnpm口令项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

000247

Java光头强
2023年2月18日
技术随笔

SpringBoot 文件上传下载工具样例

000356

小半
2023年12月23日
技术随笔

Linux下启动和关闭Redis

010446

Java光头强
2023年2月19日
技术随笔

Javascript前端解析操作返回的各种类型的数据

010370

飞熊
2023年8月9日
技术随笔

Springboot+vue+elementUI增删改查

000175

小半
2023年1月21日
技术随笔

PDF管理器和查看器PdfDing

000170

小半
2024年7月27日
技术随笔

手机H5如何对接支付宝登陆授权以及支付（H5网站支付）

000542

小半
2023年2月12日
技术随笔

排查问题思路方法

000262

小半
2023年1月12日
技术随笔

【HBuilderX】调试报错 Error: Chromium revision is not downloaded.Run “npm install“ or “yarn install“…

000309

飞熊
2024年1月2日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！