神经网络学习笔记-02-循环神经网络

神经网络学习笔记-02-循环神经网络本文是根据WildML的Recurrent Neural Networks Tutorial写的学习笔记。不推荐阅读（写的不好）循环神经网络循环神经网络适用于处理序列化信息，比如：语言翻译，语音识别等。如果，我们要实现一个翻译功能。首先需要理解原句中每个单词的含义。这就需要根据上下文来理解。假如：原句中的每个单词，以此对应神经网络中一

oaa608868

594人浏览 · 2017-02-04 11:18:24

oaa608868 · 2017-02-04 11:18:24 发布

神经网络学习笔记-02-循环神经网络

本文是根据WildML的Recurrent Neural Networks Tutorial写的学习笔记。
不推荐阅读（写的不好）

循环神经网络

循环神经网络适用于处理序列化信息，比如：语言翻译，语音识别等。

如果，我们要实现一个翻译功能。首先需要理解原句中每个单词的含义。
这就需要根据上下文来理解。
假如：原句中的每个单词，以此对应神经网络中一个隐藏层。
在传统的神经网络框架中，隐藏层直接传递的是一个矢量Out。
这个Out矢量是原句当前每个词的一个输出，比如：含义等等。
那么，如何保存和传递上下文这个信息呢？
循环神经网络提出一个状态(state)的概念，用于传递上下文。

图

折叠图

Recurrent Neural NetworkUxVoWs

展开图

Recurrent Neural Networks_t = tanh(x_tU + s_{t_1}W)o_t = softmax(s_tV)WUXt-1UXtUXt+1VOt-1WSt-1VOtWStVOt+1WSt+1

循环神经网络框架的一点解释

与传统的神经网络架构有许多不同之处。

输入方式不同
传统的神经网络架构是静态输入，输入数据在开始前已经准备好了，并且一次全部从输入层导入。
循环神经网络是动态输入，每个隐藏层有一个输入，表示在时间t上的输入。
隐藏层，每层的节点数不同
传统的神经网络架构，每个隐藏层有多个节点。
循环神经网络，每个隐藏层有一个节点。
输出不同
循环神经网络，每个隐藏层有两个输出： output和state。
权重
循环神经网络需要计算三个权重(w, b)，分别是\(U,V,W\)。
这三个权重是在隐藏层上共享的。

原文的例子

原文中计划实现一个循环神经网络，用于发现自然语言句子中单词出现的模式，最终可以生成一些合理的句子。

数据来源
原文中，从网上下载了很多条句子（英文的）。
数据的前期处理
首先，统计了所有单词（包括标点符号）。
取出最常见的7997单词，并且编号，每个单词有一个token。
设置了3个特殊的token：
UNKNOWN_TOKEN：匹配没有在8000列表中的单词。
SENTENCE_START: 表示句子开始。
SENTENCE_END: 表示句子结束。
输入和输出
输入x的维度是8000，意味着可以接受的句子长度最大是8000。
输出y的维度是8000，和x一一对应。
下面是一个句子构造后的实际例子：

x:
SENTENCE_START what are n't you understanding about this ? !
[0, 51, 27, 16, 10, 856, 53, 25, 34, 69]
y:
what are n't you understanding about this ? ! SENTENCE_END
[51, 27, 16, 10, 856, 53, 25, 34, 69, 1]

理解：y的每n位是x前n位的期望输出。

每个输入\(X_t\)（尽管有8000维），只有一个维度有值且为1，代表第\(t\)的单词的token的维度。
比如：what的token是51。那么\(X_t\)只有第51位为1，其它都是0。
这个叫做one-hot vector。
输出：每个token的可能性。

state的维度是100。

计算公式和维度
\[ s_t = tanh(x_tU + s_{t_1}W) \\ o_t = softmax(s_tV) \\ where \\ x_t.dimension = 8000 \\ o_t.dimension = 8000 \\ s_t.dimension = 100 \\ U.dimension = 100 * 8000 : x_tU \text{ is a 100 dimension vector} \\ W.dimension = 100 * 100 : s_{t_1}W \text{ is a 100 dimension vector} \\ V.dimension = 8000 * 100 : s_tV \text{ is a 8000 dimension vector} \]
初始化U,V,W
初始化很重要。跟激活函数（这里是tanh）有关。
U,V,W每个元素是一个位于区间\(\left [ -\sqrt{n}, \sqrt{n} \right ]\)的随机数。\(n\)是输入数的长度。

循环神经网络训练流程

Recurrent Neural Network - Training ProcessPrepare DataInitialize Model {U, V, W}Forward PropagationxCalculate Lossy'Back Propagation Trough TimeL(cross-entropy loss)Gradient Descent{ΔL/ΔU, ΔL/ΔV, ΔL/ΔW}iterate{U, V, W}Result: {U, V, W}

参照

Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生