Deep Belief Networks (DBNs)

Deep Belief Networks（DBNs），是一类随机性Deep neural network，其可以用来对事物进行统计建模，表征事物的抽象特征或统计分布，在手写字识别和语音识别建模中，已被用于代替传统GMM，建立统计型声学模型等，并显示出优越的效果。本文针对我们对DBN网络的理解，对DBN网络进行了一定的分析和诠释。

bluebelfast

17016人浏览 · 2013-12-17 13:22:35

bluebelfast · 2013-12-17 13:22:35 发布

1、DBNs

Deep Belief Networks（DBNs），是一类随机性Deep neural network，其可以用来对事物进行统计建模，表征事物的抽象特征或统计分布，在手写字识别和语音识别建模中，已被用于代替传统GMM，建立统计型声学模型等，并显示出优越的效果。 Hinton的论文中，描述DBNS是一种堆叠式的RBMs网络架构，即将多个RBMs进行堆叠所形成的网络结构。其网络拓扑结构如图1所示。

图1 DBNs拓扑结构

图1为一个DBNs拓扑结构。DBNs模型化了一个以观测矢量x和L个隐藏单元h_1,h_2,...h_L组成的联合分布。

（1）

其由多个单独的RBMs网络堆叠构成。通过这样将多个RBMs进行堆叠，就能够构建任意深度层次的神经网络，如我们前面谈到的人脸识别问题,则可以通过构建一4层的DBNs来进行实现。

如何训练这样的深度网络是个关键问题。通过传统ANN网络中的监督学习算法进行深度网络学习效果并不理想。因而需要一种新的训练算法对网络进行学习。Hinton等提出了该网络的一种训练方法，并被证明是有效的。但是这种学习方法是否是能构建最优型DBNs，或学习算法是否能够形成全局最优训练我们需要打个问号,通过将来的进一步研究，可能还有更好的学习算法，这也是研究deep learning 工作者在从事的工作。

Hinton等提出的学习算法分为两个学习阶段：1）非监督学习阶段和2）优化阶段（Fine-tune）。在非监督学习阶段中，各层RBMs子网络采用前面RBMs中讲解的学习方法独立进行训练，一层RBMs的输出作为下一层RBMs的输入，依次训练每层RBMs。这一训练过程是一非监督的训练过程，为了增强网络整体对单个/单类事物的建模能力，还需要进行一定的discrimination训练（在以往的网络训练中也常常采用），用于学习各个个体间的区别性（如张三和李四都是人，因此学习其个人的特征可以通过非监督学习进行学习，但是张三和李四有什么区别或称他们到底有什么不同，学习这样的不同之处或叫个体差异性就通过Fine-tune来完成，只有学习了差异性，才能准确的对张三这个人进行模型化表示，而不会判断为李四），从而使得网络具有更好的建模和分类能力。

DBNs的训练过程描述如下：

1）以初始观测样本为输入x训练第一层RBMs网络。

2）通过第一层训练后的RBMs获得初始观测样本x的一种抽象表示，即RBMs的输出。这一输出将作为数据进行后续训练过程。

3）将第一层RBMs的输出数据作为新的观测x_1，训练第二层RBMs网络。依次类推训练完成所有层RBMs网络。

4）Fine-tune：通过一监督训练过程，对DBNs中所有的参数进行监督训练。

前面的博文已对RBMs的训练过程进行了具体描述，请参看RBMs一文。这里我们想对Fine-tune进行下描述。

2、Fine-tune

理论上任何一种网络的监督学习算法都可以用于Fine-tune的学习过程。如何实现最优的Fine-tune学习也是目前deep learning的研究重点之一。Hiton等，Yann LeCun等都提出基于梯度的一类Fine-tune学习算法。学习过程中通过将各类训练样本进行标记，对网络进行基于梯度下降的监督训练。梯度下降算法请见 gradient descent 一文。

机器学习可以理解为计算一个由输入样本和参数集为因变量的函数Y=F（Z，W）。这里Z为输入样本，W为系统/模型参数集。在模式识别任务中，输出Y是样本的一种类别或称为标号，或是与一个类别相关的概率值。损失函数定义为由Z实际产生的值D和函数F所产生的值之差E=ER（D，F（W，Z）），平均损失函数Eaverage为所有训练集{（Z1，D1），（Z2，D2），...（Zp，Dp）}所产生的E的均值。模型学习问题可以归纳为如下问题：如何找到一个W，使得Eaverage最小。

梯度下降方法提供了一种途径来找到这样的W，使得Eaverage最小。该方法通过寻找使得Eaverage函数最小值的梯度方向，来改变W，使得W的变化让Eaverage不断的向着最小值方向移动，最终到达最小值状态。如果Eaverage为一可导函数，则Eaverage的梯度则为其的导数，因此W的变化可以由下式给出。

（2）