深度增强学习入门笔记（一）

知乎专栏智能单元的学习笔记，仅为自己学习所用，侵删。从OpenAI看深度学习研究前沿OpenAI的三个主要研究方向1. 深度生成模型Deep Generative Model通过学习现有的数据生成新的数据。相关研究：1）otoro.net 学习文字自动生成新的文字2）Deep DreamNeural Art 画风迁移3

哀酱

1107人浏览 · 2017-12-14 21:32:15

哀酱 · 2017-12-14 21:32:15 发布

知乎专栏智能单元的学习笔记，仅为自己学习所用，侵删。

从OpenAI看深度学习研究前沿

OpenAI的三个主要研究方向
1. 深度生成模型 Deep Generative Model
通过学习现有的数据生成新的数据。
相关研究：
1）otoro.net 学习文字自动生成新的文字
2）Deep Dream Neural Art 画风迁移
3）Sequence to Sequence Learning 从序列到序列的学习输入英文，输出中文；输入文字，输出手写字体等。
4） Deep Generative Adversarial Network s深度生成对抗网络以及衍生而来的 DCGAN 深度卷积生成对抗网络
5）one shot learning 看一眼图像衍生出其变种，快速感知

2 . 神经图灵机 Neural Turing Machine
让计算机能够学习程序，从而具备推理能力。
相关研究：
ICLR 2016 NEURAL PROGRAMMER-INTERPRETERS 通过神经网络解释程序

3 . 深度增强学习 Deep Reinforcement Learning
使用增强学习实现自学习能力。
OpenAI Gym OpenAI的增强学习平台

大多数人工智能研究，包括增强学习的基础

世界的时间是可以被切分的，且有严格的先后顺序。
上帝不掷骰子，增强学习的输入确定，输出也确定。

马尔科夫决策过程MDP

MDP基于未来只基于现在的假设，即下一个状态仅取决于当前的状态和当前的动作。
一个状态 St <script type="math/tex" id="MathJax-Element-3">S_t</script>是Markov当且仅当
P(st+1|st)=P(st+1|st,st−1,...s1,s0) <script type="math/tex" id="MathJax-Element-4">P(s_{t+1}|s_t)=P(s_{t+1}|s_t,s_{t-1},...s_1,s_0)</script> 这里的状态是上帝视角的状态。
增强学习的问题都可以模型化为MDP的问题。
一个基本的MDP可以用（S,A,P）来表示：
S ：状态
A：动作
P：状态转移概率，根据当前的状态 st <script type="math/tex" id="MathJax-Element-5">s_t</script>和 at <script type="math/tex" id="MathJax-Element-6">a_t</script>转移到 st+1 <script type="math/tex" id="MathJax-Element-7">s_{t+1}</script>的概率。如果我们知道了转移概率P，也就是称为我们获得了模型Model，有了模型，未来就可以求解，那么获取最优的动作也就有可能，这种通过模型来获取最优动作的方法也就称为Model-based的方法。但是现实情况下，很多问题是很难得到准确的模型的，因此就有Model-free的方法来寻找最优的动作。

回报return

基于MDP，每个状态都可以用一个确定的值来表示，所以就可以判断好坏。状态的好坏等价于对未来回报的期望。
设回报return为某个时间t时的状态所将具备的回报。

G t = R t + 1 + λ R t + 2 + \dots \dots = \sum k = 0 \infty λ k R t + k + 1

回到增强学习的目标—-找到一个最优的policy使得reward最多上来，所以有以下三种方法可以找到最优的policy：
1. 直接优化策略 π(a|s) <script type="math/tex" id="MathJax-Element-38">\pi(a|s)</script>或者 a=π(s) <script type="math/tex" id="MathJax-Element-39">a = \pi(s)</script>使得回报更高。
2. 通过估计value function来间接获得优化的策略。
3. 融合上面两种做法，如actor-critic演员评论家算法。
DQN是基于value function的算法。