最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…

Markov Process

状态 s 是马尔科夫的但且仅当:

P(S(t+1)|St=P(St+1|S1,...,St)

一个马尔科夫过程可以用一个二元组 (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。

Markov Reward Process

没有价值的判断就无法生成有效的策略。因此,引入了reward这样一个概念。 一个markov reward process 是一个四元组( S,P,R,γ ),其中 R 为reward function,定义为

Rs=E(Rt+1|St=s)

γ 为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。
而我们所关心的是一个样本(sequence)在某个时刻所带来的回报,即累计奖赏(accumulated reward)return。

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1

这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域,立即的奖赏明显比延后的奖赏更加诱人。
State value function 评分函数 v(s) 表示从当前状态 s 出发能够得到的奖赏的期望,描述的是状态v(s)的长期价值。

v(s)=E(Gt|St=s)

Bellman Equation

Gt 带入可得

v(s)=E(Rt+1+γv(St+1)|St=s)=Rs+γs,SPss,v(s,)
即可得到bellman 方程
v=R+γPv

其中 v,R 为列向量, P 为转移概率矩阵。其计算开销巨大O(n3)
迭代求取的方法有:动态规划,时序差分学习,蒙特卡洛评价等方式

Markov Dicision Process

一个马尔科夫决策过程可有一个5元组 (S,A,P,R,γ) 描述
其中 A 为动作action的集合,P则被定义为
Pass,=P(St+1=s,|St=s,At=a)
即状态 s 经动作a转移到状态 s, 的概率
R 的定义类似于此前,

Ras=E(Rt+1|St=s,At=a)

policy

一个策略 π 指的是对于一个状态对应的可能执行的动作的分布

π(a|s)=P(At=a|St=s)
且其不随时间的改变而改变
有了策略后,可以根据value state function 定义 action value function。
qπ=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a)

同时可得以下方程
vπ(s)=aAπ(a|s)qπ(s,a)

qπ(s,a)=Ras+γs,SPass,vπ(s,)

Optimal Value Function

v(s)=maxπvπ(s)

q(s,a)=maxπqπ(s,a)

一个最优策略可以由 q(s,a) 得到:
π(s,a)={10a=argmaxaAq(s,a)otherwise

Extensions to MDPs

POMDP(partially observable markov decision)

我的理解是,他是一个加入了动作的隐马尔科夫模型

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐