1. RL介绍

强化学习(Reinforcement Learning,RL),又称再励学习,评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在于环境的交互过程中通过学习策略以达成回报最大化或实现特性目标的问题。

  • 基本要素
    A : 动 作 空 间 ( A c t i o n s p a c e ) S : 状 态 空 间 ( S t a t e s p c a e ) R : 奖 励 ( R e w a r d ) P : 状 态 转 移 概 率 矩 阵 ( T r a n s i t i o n ) \begin{aligned} &A:动作空间(Action space) \\ &S:状态空间(State spcae) \\ &R:奖励(Reward) \\ &P:状态转移概率矩阵(Transition)\\ \end{aligned} AActionspace)SStatespcae)RReward)PTransition

2.马尔科夫决策过程(Markov Decision Process, MDP )

2.1 马尔科夫过程(Markov Process)

在一个随机过程 s 0 , s 1 , . . . , s n s_0,s_1,...,s_n s0,s1,...,sn中,已知时刻 t i t_i ti所处的状态 s i s_i si,如果在时刻 t i + 1 t_{i+1} ti+1时的状态 s i + 1 s_{i+1} si+1至于状态 s i s_i si相关,耳语 t i t_i ti时刻之前的状态无关,则称这个过程为马尔科夫过程。

具有马尔科夫性质的随机过程 s 0 , s 1 , . . . , s n s_0,s_1,...,s_n s0,s1,...,sn成为马尔科夫链。

2.2 马尔科夫回报过程(Markov Reward Process)

状态s的期望奖励值表示为
V ( s ) = E [ G t ∣ S t = s ] , 其 中 V 表 示 奖 励 的 期 望 V(s)=E[G_t|S_t=s],其中V表示奖励的期望 V(s)=E[GtSt=s],V
计算累计奖励的方式

  • 计算从当前状态到结束状态的所有奖励之和,适合有限时界强库抗下的强化学习
    V ( s ) = E [ G t ∣ S t = s ] = E [ r t + 1 + r t + 2 + . . . + r t + T ] = E [ r t + 1 + V ( S t + 1 ) ∣ S t = s ] = ∑ s ⋅ P ( s ‘ ∣ s ) ( R ( s ‘ ) + V ( s ‘ ) ) \begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+r_{t+2}+...+r_{t+T}] \\ &=E[r_{t+1}+V(S_{t+1})|S_t=s] \\ &=\sum _{s^·}P(s^`|s)(R(s^`)+V(s^`)) \end{aligned} V(s)=E[GtSt=s]=E[rt+1+rt+2+...+rt+T]=E[rt+1+V(St+1)St=s]=sP(ss)(R(s)+V(s))

  • 增加折扣因子,适合无限时界
    V ( s ) = E [ G t ∣ S t = s ] = E [ r t + 1 + γ r t + 1 + γ 2 r t + 3 + . . . ] = E [ r t + 1 + γ V ( S t + 1 ) ∣ S t = s ] = ∑ s ‘ P ( s ‘ ∣ s ) ( R ( s ‘ ) + γ V ( s ‘ ) ) \begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+\gamma r_{t+1}+\gamma^2r_{t+3}+...] \\ &=E[r_{t+1}+\gamma V(S_{t+1})|S_t=s] \\ &=\sum _{s^`}P(s^`|s)(R(s^`)+\gamma V(s^`)) \end{aligned} V(s)=E[GtSt=s]=E[rt+1+γrt+1+γ2rt+3+...]=E[rt+1+γV(St+1)St=s]=sP(ss)(R(s)+γV(s))

2.3 马尔科夫决策过程(Markov Decision Process,MDP)

将马尔科夫决策过程定义为一个五元组:
M = ( S , A , R , P , γ ) S : 状 态 空 间 , 表 示 所 有 的 状 态 A : 动 作 空 间 , 表 示 每 个 状 态 下 可 执 行 的 动 作 R : S ∗ A → R , 奖 励 函 数 P : S ∗ A → S , 状 态 转 移 规 则 \begin{aligned} &M=(S,A,R,P,\gamma) \\ &S:状态空间,表示所有的状态 \\ &A:动作空间,表示每个状态下可执行的动作 \\ &R:S*A \rightarrow R,奖励函数 \\ &P:S*A \rightarrow S,状态转移规则 \end{aligned} M=(S,A,R,P,γ)S:AR:SAR,P:SAS,
强化学习要解决的问题是:agent(智能体)需要学习一个策略(policy) π \pi π ,这个策略 π \pi π定义了从状态到动作的一个映射关系 π : S → A \pi :S \rightarrow A π:SA,也就是说,agent在任意状态 s t s_t st下所能执行的动作为: a t = π ( s t ) a_t=\pi (s_t) at=π(st),并且有
∑ a t ∈ A π ( a t ∣ s t ) = 1 \sum _{a_t \in A} \pi (a_t|s_t)=1 atAπ(atst)=1



持续学习中…

附:CSDN博客中的公式显示问题

  • 行内的公式不能有空格,如$公式$
  • 段间的公式在有其他的语法应用时,也不能有空格,如$$\begin{aligned} 公式 \end{aligned},作用是将公式利用“&”进行对齐。
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐