强化学习 --- 马尔科夫决策过程
C. 强化/增强学习离散马尔可夫模型马尔科夫链马尔可夫决策过程动态规划贝尔曼方程策略估计策略改进策略迭代值迭代蒙特卡罗方法时间差分法隐马尔可夫模评估问题:前向后向算法解码问题:维特比算法(Viterbi)学习问题:前向后向算法(BAUM-W...
·
强化学习 - 马尔科夫决策过程(MDP)
概述
- 背景
- 马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。
- 该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 )。
- MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励
- 智能体(agent):MDP中进行机器学习的代理,可以感知外界环境的状态进行决策、对环境做出动作并通过环境的反馈调整决策。
- 环境(environment):MDP模型中智能体外部所有事物的集合,其状态会受智能体动作的影响而改变,且上述改变可以完全或部分地被智能体感知。环境在每次决策后可能会反馈给智能体相应的奖励。
- 历史
- MDP的历史可以追溯至20世纪50年代动力系统研究中的最优控制(optimal control)问题,1957年,美国学者Richard Bellman通过离散随机最优控制模型首次提出了离散时间马尔可夫决策过程。
- 1960年和1962年,美国学者Ronald A. Howard和David Blackwell提出并完善了求解MDP模型的动态规划方法
- 1987年,美国学者Paul Werbos在研究中试图将MDP和动态规划与大脑的认识机制相联系
- 1989年,英国学者Chris Watkins首次在强化学习中尝试使用MDP建模 。Watkins (1989)在发表后得到了机器学习领域的关注,MDP也由此作为强化学习问题的常见模型而得到应用
- 概念
- 随机变量
- 随机过程
- 马尔科夫链/马尔科夫过程:为了简化计算
- 状态空间
- 马尔科夫奖励过程
- 马尔科夫决策过程
- 应用
- 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。
组成部分
- S:状态空间
- A(s):Action
- Reward:奖励
- 具备随机性
- 策略
- 动态特性
- 离散数据:可以用转移矩阵表示
- 连续数据:状态转移函数
- 类型
- 确定性策略:即状态 si 固定执行 ai
- 随机性策略
- 动态特性
- 回报
- 回报是奖励随时间步的积累,在引入轨迹的概念后,回报也是轨迹上所有奖励的总和。
- 可用 权重,弱化离得越远的作用
- 回报是奖励随时间步的积累,在引入轨迹的概念后,回报也是轨迹上所有奖励的总和。
价值函数
- 定义
- si 的 回报期望值
- 算法
- 贝夫曼期望方程
最优求解
- 贝尔曼最优方程
变体
- 部分可观察马尔可夫决策过程
- 约束马尔可夫决策过程
- 模糊马尔可夫决策过程
更多推荐
已为社区贡献4条内容
所有评论(0)