循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN，以及DNN的特例CNN的模型和前向反向传播算法，这些算法都是前向反馈的，模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络：循环神经网络(Recurrent Neural Networks ，以下简称RNN)，它广泛的用于自然语言处理中的语音识别，手写书别以及机器翻译等领域。1. RNN概述　　　　在前面讲到的DNN和CNN...

dengdun6257

293人浏览 · 2019-05-07 17:15:00

dengdun6257 · 2019-05-07 17:15:00 发布

1. RNN概述

　　　　在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。

　　　　而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引τ

　　　　下面我们来看看RNN的模型。

2. RNN模型

　　　　RNN模型有比较多的变种，这里介绍最主流的RNN模型结构如下：

　　　　上图中左边是RNN模型没有按时间展开的图，如果按时间序列展开，则是上图中的右边部分。我们重点观察右边部分的图。

　　　　这幅图描述了在序列索引号t

　　　　1）x(t)

　　　　2）h(t)

　　　　3）o(t)

　　　　4）L(t)

　　　　5）y(t)

　　　　6）U,W,V

3. RNN前向传播算法

　　　　有了上面的模型，RNN的前向传播算法就很容易得到了。

　　　　对于任意一个序列索引号t

h (t) = σ (z (t)) = σ (U x (t) + W h (t - 1) + b)

　　　　其中σ

　　　　序列索引号t

o (t) = V h (t) + c

　　　　在最终在序列索引号t

y^(t) = σ (o (t))

　　　　通常由于RNN是识别类的分类模型，所以上面这个激活函数一般是softmax。

　　　　通过损失函数L(t)

4. RNN反向传播算法推导

　　　　有了RNN前向传播算法的基础，就容易推导出RNN反向传播算法的流程了。RNN反向传播算法的思路和DNN是一样的，即通过梯度下降法一轮轮的迭代，得到合适的RNN模型参数U,W,V,b,c

　　　　为了简化描述，这里的损失函数我们为交叉熵损失函数，输出的激活函数为softmax函数，隐藏层的激活函数为tanh函数。

　　　　对于RNN，由于我们在序列的每个位置都有损失函数，因此最终的损失L

L = \sum t = 1 τ L (t)

　　　　其中V,c,

\partial L \partial c = \sum t = 1 τ \partial L ( t ) \partial c = \sum t = 1 τ

\partial L \partial V = \sum t = 1 τ \partial L ( t ) \partial V = \sum t = 1 τ

　　　　但是W,U,b

δ (t) = \partial L \partial h ( t )

　　　　这样我们可以像DNN一样从δ(t+1)

δ (t) = \partial L \partial o ( t ) \partial o ( t ) \partial h ( t ) + \partial

　　　　对于δ(τ)

δ (τ) = \partial L \partial o ( τ ) \partial o ( τ ) \partial h ( τ ) = V T (

　　　　有了δ(t)

\partial L \partial W = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial W

\partial L \partial b = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial b

\partial L \partial U = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial U

　　　　除了梯度表达式不同，RNN的反向传播算法和DNN区别不大，因此这里就不再重复总结了。

5. RNN小结

　　　　上面总结了通用的RNN模型和前向反向传播算法。当然，有些RNN模型会有些不同，自然前向反向传播的公式会有些不一样，但是原理基本类似。

　　　　RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。在语音识别，手写书别以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的一个特例LSTM，下一篇我们就来讨论LSTM模型。

（欢迎转载，转载请注明出处。欢迎沟通交流：liujianping-ok@163.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

4）CS231n Convolutional Neural Networks for Visual Recognition, Stanford

转载于:https://www.cnblogs.com/Ph-one/p/10826741.html

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生