强化学习 - 马尔科夫决策过程(MDP)

概述

  • 背景
    • 马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。
    • 该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 )。
    • MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励
      • 智能体(agent):MDP中进行机器学习的代理,可以感知外界环境的状态进行决策、对环境做出动作并通过环境的反馈调整决策。
      • 环境(environment):MDP模型中智能体外部所有事物的集合,其状态会受智能体动作的影响而改变,且上述改变可以完全或部分地被智能体感知。环境在每次决策后可能会反馈给智能体相应的奖励。
  • 历史
    • MDP的历史可以追溯至20世纪50年代动力系统研究中的最优控制(optimal control)问题,1957年,美国学者Richard Bellman通过离散随机最优控制模型首次提出了离散时间马尔可夫决策过程。
    • 1960年和1962年,美国学者Ronald A. Howard和David Blackwell提出并完善了求解MDP模型的动态规划方法
    • 1987年,美国学者Paul Werbos在研究中试图将MDP和动态规划与大脑的认识机制相联系
    • 1989年,英国学者Chris Watkins首次在强化学习中尝试使用MDP建模 。Watkins (1989)在发表后得到了机器学习领域的关注,MDP也由此作为强化学习问题的常见模型而得到应用
  • 概念
    • 随机变量
    • 随机过程
    • 马尔科夫链/马尔科夫过程:为了简化计算
    • 状态空间
    • 马尔科夫奖励过程
    • 马尔科夫决策过程
  • 应用
    • 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。

组成部分

  • S:状态空间
  • A(s):Action
  • Reward:奖励
    • 具备随机性
  • 策略
    • 动态特性
      • 离散数据:可以用转移矩阵表示
      • 连续数据:状态转移函数
    • 类型
      • 确定性策略:即状态 si 固定执行 ai
      • 随机性策略
  • 回报
    • 回报是奖励随时间步的积累,在引入轨迹的概念后,回报也是轨迹上所有奖励的总和。
      • 可用 权重,弱化离得越远的作用

价值函数

  • 定义
    • si 的 回报期望值
  • 算法
    • 贝夫曼期望方程

最优求解

  • 贝尔曼最优方程

变体

  • 部分可观察马尔可夫决策过程
  • 约束马尔可夫决策过程
  • 模糊马尔可夫决策过程
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐