David silver 的 reinforcement learning 课程笔记（二）：马尔科夫决策过程

最近在学增强学习，边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当:P(S(t+1)|St）=P(St+1|S1,...,St)P(S_{(t+1)}|S_t）=P(S_{t+1}|S_1,...,S_t)一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义，其中S为有限的状态的集合，P为转移矩阵。对于一个马尔科夫过程一个样

ahfranck

692人浏览 · 2017-02-27 21:27:11

ahfranck · 2017-02-27 21:27:11 发布

最近在学增强学习，边看课程视频编写的总结。希望和大家一起讨论学习…

Markov Process

状态 $s$ 是马尔科夫的但且仅当:

P (S (t + 1) | S t ） = P (S t + 1 | S 1, . . ., S t)

$P(S_{(t+1)}|S_t）=P(S_{t+1}|S_1,...,S_t)$
一个马尔科夫过程可以用一个二元组

(S,P) $(S,P)$ 定义，其中S为有限的状态的集合，P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。

Markov Reward Process

没有价值的判断就无法生成有效的策略。因此，引入了reward这样一个概念。一个markov reward process 是一个四元组( $S,P,R,\gamma$ )，其中 $R$ 为reward function，定义为

R s = E (R t + 1 | S t = s)

$R_s=E(R_{t+1}|S_t=s)$

$\gamma$ 为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。
而我们所关心的是一个样本（sequence）在某个时刻所带来的回报，即累计奖赏（accumulated reward）return。

G t = R t + 1 + γ R t + 2 + . . . = \sum k = 0 \infty γ k R t + k + 1

$G_t=R_{t+1}+\gamma R_{t+2}+...=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域，立即的奖赏明显比延后的奖赏更加诱人。
State value function 评分函数 $v(s)$ 表示从当前状态 $s$ 出发能够得到的奖赏的期望，描述的是状态 $v(s)$ 的长期价值。

v (s) = E (G t | S t = s)

$v(s)=E(G_t|S_t=s)$

Bellman Equation

将 $G_t$ 带入可得

v (s) = E (R t + 1 + γ v (S t + 1) | S t = s) = R s + γ \sum s, \in S P s s, v (s,)

$v(s)=E(R_{t+1}+\gamma v(S_t+1)|S_t=s)\\ =R_s+\gamma\sum_{s^,\in S}P_{ss^,}v(s^,)$ 即可得到bellman 方程

v = R + γ P v

$v=R+\gamma Pv$
其中

v,R $v,R$ 为列向量，

P $P$ 为转移概率矩阵。其计算开销巨大

O(n3) $O(n^3)$ 。
迭代求取的方法有：动态规划，时序差分学习，蒙特卡洛评价等方式

Markov Dicision Process

一个马尔科夫决策过程可有一个5元组 $(S,A,P,R,\gamma)$ 描述
其中 $A$ 为动作action的集合， $P$ 则被定义为
$P^{a}_{ss^,}=P(S_{t+1}=s^,|S_t=s,A_t=a)$
即状态 $s$ 经动作 $a$ 转移到状态 $s^,$ 的概率
$R$ 的定义类似于此前，

R a s = E (R t + 1 | S t = s, A t = a)

$R^a_s=E(R_{t+1}|S_t=s,A_t=a)$

policy

一个策略 $\pi$ 指的是对于一个状态对应的可能执行的动作的分布

π (a | s) = P (A t = a | S t = s)

$\pi(a|s)=P(A_t=a|S_t=s)$ 且其不随时间的改变而改变
有了策略后，可以根据value state function 定义 action value function。

q π = E π (G t | S t = s, A t = a) = E π (R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a)

$q_\pi=E_\pi(G_t|S_t=s,A_t=a)\\ =E_\pi(R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a)$
同时可得以下方程

v π (s) = \sum a \in A π (a | s) q π (s, a)

$v_\pi(s)=\sum_{a \in A}\pi(a|s)q_\pi(s,a)$

q π (s, a) = R a s + γ \sum s, \in S P a s s, v π (s,)

$q_\pi(s,a)=R^a_s+\gamma \sum_{s^, \in S}P^a_{ss^,}v_\pi(s^,)$

Optimal Value Function

v * (s) = m a x π v π (s)

$v_*(s)=max_\pi v_\pi(s)$

q * (s, a) = m a x π q π (s, a)

$q_*(s,a)=max_\pi q_\pi(s,a)$
一个最优策略可以由

q∗(s,a) $q_*(s,a)$ 得到：

π * (s, a) = {10 a = a r g m a x a \in A q * (s, a) o t h e r w i s e

$\pi_*(s,a)=\begin{cases} 1&a=argmax_{a\in A}q_*(s,a)\\ 0&otherwise\end{cases}$

Extensions to MDPs

POMDP(partially observable markov decision)

我的理解是，他是一个加入了动作的隐马尔科夫模型

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生