David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程
最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当:P(S(t+1)|St)=P(St+1|S1,...,St)P(S_{(t+1)}|S_t)=P(S_{t+1}|S_1,...,S_t)一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样
最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…
Markov Process
状态
s
是马尔科夫的但且仅当:
一个马尔科夫过程可以用一个二元组 (S,P) 定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。
Markov Reward Process
没有价值的判断就无法生成有效的策略。因此,引入了reward这样一个概念。 一个markov reward process 是一个四元组(
S,P,R,γ
),其中
R
为reward function,定义为
γ
为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。
而我们所关心的是一个样本(sequence)在某个时刻所带来的回报,即累计奖赏(accumulated reward)return。
这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域,立即的奖赏明显比延后的奖赏更加诱人。
State value function 评分函数
v(s)
表示从当前状态
s
出发能够得到的奖赏的期望,描述的是状态
Bellman Equation
将
Gt
带入可得
其中 v,R 为列向量, P 为转移概率矩阵。其计算开销巨大
迭代求取的方法有:动态规划,时序差分学习,蒙特卡洛评价等方式
Markov Dicision Process
一个马尔科夫决策过程可有一个5元组
(S,A,P,R,γ)
描述
其中
A
为动作action的集合,
Pass,=P(St+1=s,|St=s,At=a)
即状态
s
经动作
R
的定义类似于此前,
policy
一个策略
π
指的是对于一个状态对应的可能执行的动作的分布
有了策略后,可以根据value state function 定义 action value function。
同时可得以下方程
Optimal Value Function
一个最优策略可以由 q∗(s,a) 得到:
Extensions to MDPs
POMDP(partially observable markov decision)
我的理解是,他是一个加入了动作的隐马尔科夫模型
更多推荐
所有评论(0)