RL笔记：RL_1

1. RL介绍强化学习（Reinforcement Learning，RL)，又称再励学习，评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在于环境的交互过程中通过学习策略以达成回报最大化或实现特性目标的问题。基本要素A：动作空间（Actionspace)S：状态空间（Statespcae)R：奖励（Reward)P：状态转移概率矩阵（Transition）\be...

wangguo.site

655人浏览 · 2019-12-10 16:18:42

wangguo.site · 2019-12-10 16:18:42 发布

1. RL介绍

强化学习（Reinforcement Learning，RL)，又称再励学习，评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在于环境的交互过程中通过学习策略以达成回报最大化或实现特性目标的问题。

基本要素
$\begin{aligned} &A：动作空间（Action space) \\ &S：状态空间（State spcae) \\ &R：奖励（Reward) \\ &P：状态转移概率矩阵（Transition）\\ \end{aligned}$

2.马尔科夫决策过程（Markov Decision Process, MDP ）

2.1 马尔科夫过程（Markov Process)

在一个随机过程 $s_0,s_1,...,s_n$ 中，已知时刻 $t_i$ 所处的状态 $s_i$ ，如果在时刻 $t_{i+1}$ 时的状态 $s_{i+1}$ 至于状态 $s_i$ 相关，耳语 $t_i$ 时刻之前的状态无关，则称这个过程为马尔科夫过程。

具有马尔科夫性质的随机过程 $s_0,s_1,...,s_n$ 成为马尔科夫链。

2.2 马尔科夫回报过程（Markov Reward Process)

状态s的期望奖励值表示为
$V(s)=E[G_t|S_t=s],其中V表示奖励的期望$
计算累计奖励的方式

计算从当前状态到结束状态的所有奖励之和,适合有限时界强库抗下的强化学习
$\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+r_{t+2}+...+r_{t+T}] \\ &=E[r_{t+1}+V(S_{t+1})|S_t=s] \\ &=\sum _{s^·}P(s^`|s)(R(s^`)+V(s^`)) \end{aligned}$
增加折扣因子，适合无限时界
$\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+\gamma r_{t+1}+\gamma^2r_{t+3}+...] \\ &=E[r_{t+1}+\gamma V(S_{t+1})|S_t=s] \\ &=\sum _{s^`}P(s^`|s)(R(s^`)+\gamma V(s^`)) \end{aligned}$

2.3 马尔科夫决策过程（Markov Decision Process，MDP）

将马尔科夫决策过程定义为一个五元组：
$\begin{aligned} &M=(S,A,R,P,\gamma) \\ &S:状态空间，表示所有的状态 \\ &A：动作空间，表示每个状态下可执行的动作 \\ &R:S*A \rightarrow R,奖励函数 \\ &P:S*A \rightarrow S,状态转移规则 \end{aligned}$
强化学习要解决的问题是：agent(智能体)需要学习一个策略（policy） $\pi$ ,这个策略 $\pi$ 定义了从状态到动作的一个映射关系 $\pi :S \rightarrow A$ ,也就是说，agent在任意状态 $s_t$ 下所能执行的动作为： $a_t=\pi (s_t)$ ,并且有
$\sum _{a_t \in A} \pi (a_t|s_t)=1$

持续学习中…

附：CSDN博客中的公式显示问题

行内的公式不能有空格，如 $公式$
段间的公式在有其他的语法应用时，也不能有空格，如$$\begin{aligned} 公式 \end{aligned},作用是将公式利用“&”进行对齐。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生