知乎专栏智能单元的学习笔记,仅为自己学习所用,侵删。

从OpenAI看深度学习研究前沿

OpenAI的三个主要研究方向
1. 深度生成模型 Deep Generative Model
通过学习现有的数据生成新的数据。
相关研究:
1)otoro.net 学习文字自动生成新的文字
2)Deep Dream Neural Art 画风迁移
3)Sequence to Sequence Learning 从序列到序列的学习 输入英文,输出中文;输入文字,输出手写字体等。
4) Deep Generative Adversarial Network s深度生成对抗网络以及衍生而来的 DCGAN 深度卷积生成对抗网络
5)one shot learning 看一眼图像衍生出其变种,快速感知


2 . 神经图灵机 Neural Turing Machine
让计算机能够学习程序,从而具备推理能力。
相关研究:
ICLR 2016 NEURAL PROGRAMMER-INTERPRETERS 通过神经网络解释程序


3 . 深度增强学习 Deep Reinforcement Learning
使用增强学习实现自学习能力。
OpenAI Gym OpenAI的增强学习平台



DQN Deep Q Network

这里写图片描述
agent 智能体 具备行为能力的物体
state 状态 观察observation的集合
action 动作
reward 反馈值
state->action称为policy 策略
state:s,action:a,policy:π
我们需要找到下列关系(一一对应或者是概率表示):
a=π(s) 或者
π(a|s)
增强学习的任务是找到一个最优的policy策略使得reward反馈值最多。


大多数人工智能研究,包括增强学习的基础
  1. 世界的时间是可以被切分的,且有严格的先后顺序。
  2. 上帝不掷骰子,增强学习的输入确定,输出也确定。

马尔科夫决策过程MDP

MDP基于未来只基于现在的假设,即下一个状态仅取决于当前的状态和当前的动作。
一个状态 St 是Markov当且仅当
P(st+1|st)=P(st+1|st,st1,...s1,s0) 这里的状态是上帝视角的状态。
增强学习的问题都可以模型化为MDP的问题。
一个基本的MDP可以用(S,A,P)来表示:
S :状态
A:动作
P:状态转移概率,根据当前的状态 st at 转移到 st+1 的概率。如果我们知道了转移概率P,也就是称为我们获得了模型Model,有了模型,未来就可以求解,那么获取最优的动作也就有可能,这种通过模型来获取最优动作的方法也就称为Model-based的方法。但是现实情况下,很多问题是很难得到准确的模型的,因此就有Model-free的方法来寻找最优的动作。


回报return

基于MDP,每个状态都可以用一个确定的值来表示,所以就可以判断好坏。状态的好坏等价于对未来回报的期望。
设回报return为某个时间t时的状态所将具备的回报。

Gt=Rt+1+λRt+2+=k=0λkRt+k+1

R: Reward反馈值
λ:discount factor折扣因子,一般小于1,就是说一般当下的反馈是比较重要的,时间越久,影响越小。
注意这是某一个时刻t的状态所将具备的回报,所以要等整个过程走完,才能算出所有的回报(k是到正无穷的),引出一个概念 价值函数 value function来解决这个问题,价值函数表示一个状态未来的潜在价值,公式:
这里写图片描述


回到增强学习的目标—-找到一个最优的policy使得reward最多上来,所以有以下三种方法可以找到最优的policy:
1. 直接优化策略 π(a|s) 或者 a=π(s) 使得回报更高。
2. 通过估计value function来间接获得优化的策略。
3. 融合上面两种做法,如actor-critic演员评论家算法。
DQN是基于value function的算法。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐