【论文翻译】Combining information from multi-stream features using deep neural network in speech recogniti
父条目:Combining information from multi-stream features using deep neural network in speech recognition基于深度神经网络的多流特征信息融合技术在语音识别中的应用摘要:本文的主题是在混合人工神经网络(ANN) -隐马尔可夫模型(HMM)框架下集成多流特征。研究了多流组合中对数滤波器组和...
父条目: Combining information from multi-stream features using deep neural network in speech recognition
基于深度神经网络的多流特征信息融合技术在语音识别中的应用
摘要:
本文的主题是在混合人工神经网络(ANN) -隐马尔可夫模型(HMM)框架下集成多流特征。研究了多流组合中对数滤波器组和MFCC特征在音素识别中的应用。提出了一种中间集成方法来融合来自不同特征集的信息。利用深度学习算法训练深度神经网络(DNN),探讨了不同的流组合方法。在TIMIT语音数据上使用DNN-HMM系统进行识别实验的结果表明,该方法不仅优于单一的最佳流,也优于其他融合策略。
一、介绍:
自动语音识别(ASR)的最终目标是像人类一样有效地处理各种说话风格、渠道和环境条件。目前最先进的ASR系统使用隐马尔可夫模型(HMM)来模拟语音信号的顺序结构,每个HMM状态发射概率使用高斯混合模型(GMM)来模拟声波的光谱观测。最传统的观测是由一组梅尔频率倒谱系数(MFCC)来表示,这些系数来自一个约25毫秒的语音窗口。窗口每帧移动10毫秒,每一帧的系数都用第二和第三阶时间导数进行扩充。
隐 马尔可夫模型因其较好的表征了人类语音的统计和序列特性,在语音识别领域取得了突破性进展。然而,如果采用最大似然估计(MLE)准则进行训练,特别是在 以后没有使用任何判别技术的情况下,其判别性能较弱。当时,连接主义体系结构,尤其是多层感知器(MLP),被视为模式分类和语音识别问题的替代工具。多 元线性规划的主要特点是其识别能力强、具有学习和表达隐性知识的能力、易于整合上下文信息和多种特征。利用人工神经网络的识别能力和隐马尔可模型的时间结 构建模能力,提出了一种混合的隐马尔可模型[1]结构和串联[2]方法,在语音识别中取得了良好的效果。然而,由于初始化策略不佳,使得神经网络的反向传 播训练容易陷入局部最优,特别是当神经网络具有较深的体系结构时。
与 GMM-HMM系统相比,DNN-HMM体系结构提供了一种集成各种特性的简单方法。在这项工作中,我们研究了不同特征集的组合,并提出了一种新的方法, 称为中间集成,以合并多流信息。与传统的早期集成方案和后期集成方案[7]相比,这是通过对不同输入特征的中间表示进行集成,对组合网进行预处理,然后对 组合网和单流网进行全局优化来实现的。我们在TIMIT上的实验结果表明,所提出的多流组合方法比单一最优流的误码率(PER)降低了6.1%。
我们在第2节中介绍了深度学习和混合DNN-HMM的相关算法,在第3节中介绍了我们的中间集成方法。实验结果和结论分别为第4节和第5节。
二、混合DNN-HMM架构
一个DNN是一个传统的MLP与许多隐藏层,初始化使用DBN预训练算法。在这一部分,我们简要回顾了DNN的训练算法,深度学习的前期训练阶段和反向传播(BP)微调阶段,并描述用于语音识别的混合DNN-HMM。
A.DNN训练算法
DNN 的参数可以通过DBN预训练算法进行初始化,该算法通过将每一对相邻的层作为受限的boltzmann机(RBM)或自动编码器来贪婪地学习每一层。 DBNs是一种概率生成模型,在单个底层之上有多个随机隐藏单元层,这些随机隐藏单元对应于数据向量。[3]中首次描述的高效无监督学习算法试图捕获输入 数据的固有特征。在无监督或训练前阶段之后,可以使用标准的反向传播阶段来微调权重并获得输入数据的更好表示。
在 这项工作中,我们选择RBM作为DBNs的构建块。RBM是一个二部图,它有一层观察到的或可见的单位和一层隐藏的单位。对于这项工作的目的,隐藏单元将 总是二进制的,可见层将是二进制或高斯分布的。通常,所有可见变量都紧密地连接到所有隐藏变量,但是没有层内连接。RBM将能量与可见和隐藏状态向量的每 一种可能的配置相关联,分别表示为v和h。对于二进制可见单元,RBM能量函数为:
(1)
其中b、c为可见和隐藏单元的偏置项,W为权重矩阵。可见和隐藏单元的联合概率是根据该配置的能量与所有可能配置的总能量之比来定义的
(2)
其中归一化因子称为配分函数。由于没有可见-可见或隐藏-隐藏的连接,条件分布p(v|h)和p(h|v)是阶乘,由:
(3)
(4)
其中V和H是可见向量和隐藏向量的维数,。通过目标函数的最大化,可以对RBM的参数进行泛化训练
可见向量的可能性:,没有标签的监督。虽然配分函数Z需要指数时间来精确计算,但是对比发散(CD)算法可以用来近似训练样本的可能性。根据数据的似然函数的梯度和应用CD近似,更新规则可以表示为:
这里 是的重构,可以用(3)和(4)计算。
利用贪心分层wised训练过程,可以通过训练RBM的第一层,保持权值不变,将前一层的输出作为下一层的输入,然后继续训练下面的层,来初始化一个具有多层RBM的DNN。初始化之后,可以使用标准的BP程序来调整DNN的参数。辛顿和其他许多研究人员发现,从预先训练的参数开始训练MLP常常有助于[5]。
b . DNN-HMM建模
在混合的ANN-HMM方法[1]中,MLP代替声学模型s高斯混合来计算语音状态的后验概率,然后将其转换成比例概率,直接用于维特比解码。利用贝叶斯规则进行后验概率的转换:
(8)
这里,音素的HMM状态的后验概率由MLP得到。因为(8)中的m不能像GMM生成模型那样有效地计算,所以在解码中使用比例似然而不是绝对似然。但是,这并不影响Viterbi解码,因为是独立于HMM状态的。
由于发现了有效的训练算法,DNN代替了ANN- hmm混合结构中的浅层次神经网络。DNN被用来将输入特性直接投射到绑定的三音状态[8]中,并通过这样做证明了它的工作效果非常好。
三、多流组合的方法
基 于多流的ASR系统的性能通常优于单流系统,特别是在有噪声的测试条件下。通常,组合具有不同特性的流原始信号的特性是在输入端使用一个大的特征向量(早 期的积分,可能通过一些降维技术进行处理)或在识别过程的后期(例如,在概率或后验概率级别,称为后期积分)来实现的。DNN的训练过程也可以看作是对原 始特征的更好表达。因此,我们建议结合不同的流信息在DNN的中间层,微调全局连接权值,以获得更好的后验概率用于混合ANN-HMM框架下的维特比解码 器。相应的集成架构如图1和图2所示。
图1所示。早期集成图(左)和后期集成图(右)用于合并多个特征流,图中有两个流。
在 早期的集成中,不同的信息流被简单地连接并输入到一个DNN中,以估计解码器使用的后验,如图1所示。另一方面,后期集成方案(图1右侧)是指单个流s表 示来分离分类器,并适当组合分类器输出。分类器的输出通常是概率型的,利用求和、积[9,10]、逆熵[11]组合准则、分层MLPs等多种多流组合技术 进行组合。
图2给出了将两个流与所提议的体系结构相结合的示例,该架构涉及两个单独流的独立层和一个用于集成单个流的媒体表示的组合层。中间集成方法利用DBN的一般性学习,通过合并单个媒体表示并对以下层进行预培训,融合了中间层中的单个流。
学 习不同流的固有特征后对信息进行梳理,而不是简单地在原始特征层上拼接,是中间集成优于早期集成的关键因素。此外,图2中的架构可以通过将误差信号反向传 播到输入层来共同调整单独的网络权值,而后期的集成架构只能根据各个网络各自的目标函数来独立调整。第三个中间集成体系结构的优点是较低的层的单独部分的 权重是相同的个人的共同被告层的流款,这表明我们可以节省我们的大部分时间用来pre-train较低的层,只需要pre-train组合层在下层的输出 只要个人款训练。
图2。中间集成体系结构,包含两个独立的层和一个用于梳理两个流的组合层。
更 具体地说,在训练前阶段,两个流的独立网络被正常训练,隐藏层形成了原始数据的良好表示,这有助于做出良好的预测和分类。集成层将这两个高级特征联合作为 输入来寻找它们的内部属性,并在集成网络的隐含层得到这两个流的联合表示。更多的层旨在从两个流中获取更多有用的信息。在微调阶段,DNN的参数根据误差 函数的梯度进行微调。梯度向后传播到下层的过程与通常一样,直到梯度到达第一个积分层,在那里梯度被分为两部分。由于两个独立的网之间不存在连接,它们的 参数在从集成层传播的梯度控制下独立地进行调优。
四、经验和成果
A.实验设置
我 们在TIMIT数据库上进行了手机识别实验,该数据库由来自8个方言区的630位使用者阅读的6300个句子组成。每个人读10个句子,其中两个SA记录 (即,数据库中所有说话者使用的相同的句子)被排除在培训和测试之外,因为他们可能会对结果产生偏见。建议的包含3696条记录的462个说话者训练集用 于训练我们的模型,建议的包含192个句子的24个说话者核心测试集用于评估目的。结果报告在核心测试集。
在 前端特征提取中,采用固定帧率为10 ms的25 ms的汉明窗口对语音进行分析。在我们的多流组合实验中,12阶的MFCC形成了一个特征流,而在mel尺度上分布了40个系数的基于傅立叶变换的滤波器 组形成了另一个特征流。MFCC和滤波器组的特征均被能量及其一阶和二阶导数所增强。
在 所有训练样本上应用全局均值方差归一化(Global mean variance normalization, MVN),使每个特征系数的均值和单位方差均为零。我们使用上下文无关(CI) HMMs和GMM发射概率分布对语料库中出现的61个音素进行了建模。183个目标类标签(即61款手机各3个状态称为单音状态标签,用于DNN的输出 层。将训练数据与隐马尔可夫模型进行强制比对,得到帧级的单音状态标注,并将其用于DNN的微调阶段。解码后,61个电话等级被分解为39个等级,如 [12]评分。在解码过程中,使用从训练资料中估计的电话上的双字母语言模型。
第 一层的特征输入使用了11帧的上下文。所有的DNN都使用随机梯度法进行了预先训练,最小批量为128个训练案例。对于高斯-二进制RBMs,我们运行了 150个epoch,固定学习率为0.005,而对于后续的二进制RBMs,我们运行了50个epoch,学习率为0.08。在微调期间,最终的输出层使 用softmax非线性,输出目标的数量等于HMM状态的数量。权重的更新是按话语进行的,例如不同的迷你批大小而不是固定的迷你批大小。学习率从 0.002开始。每次遍历数据后,如果给定集合上的帧级分类错误率(CER)较前一次迭代增长,则在迭代开始时将权值返回到它们的值,并将学习率进行2倍 的退火。这个训练过程持续进行,直到学习率被退火7次。训练前和调优都使用了一个小的权重成本0.0002和一个0.9的动量(除了调优的第一个纪元)。 关于重量成本和动量的更多细节可以在[13]中找到。
训 练两个dnn分别适合MFCC和filter bank的特征。我们选择了1024个单位作为单个流DNN的隐藏层大小,因为更多的隐藏单位只会略微提高性能[5]。由于我们将11个连续的特征帧作为 DNN的输入,DNN的输入层大小分别为429(用MFCC训练DNN)和1353(用滤波器组特征训练DNN)。对于早期的集成方案,我们使用1782 个节点的输入层和1024个节点的隐藏层来训练新的DNNs。利用最小熵准则[11]对两种单流dnn的输出后验概率进行组合。中间集成方案的组合层包含 2048个单元,独立层的权重与单独DNN的共同层的权重相同。
B。实验结果
除非另有说明,我们在组合中间层之前使用两个单独的层,如图2所示。因此,中间组合的隐含层至少为3。为了比较我们提出的流组合方案与早期和晚期集成方案,我们首先研究它们的帧级状态CER。
图 3显示了改变输入特征类型和组合方案的效果,表明随着隐含层数量的增加,帧级CER的模型性能提高。更准确地说,在单流建模的情况下,滤波器组特征类型的 CER低于MFCC特征类型。通过使用不同的组合方案,我们发现与单流集成相比,后期集成和中期集成的性能有所提高,而早期集成的性能几乎没有提高。中间 集成具有与后期集成相当的CER,比单个最佳流减少了1%以上的绝对误差。
图3。TIMIT核心测试集上的帧级CER是使用不同特性和组合方法的隐藏层数量的函数。
将 DNNs的输出后端输入维特比译码器,可得到识别的语音序列。岩心测试集上的PER如图4所示。从图中可以看出,流组合方法提供的PER都低于单个最佳 流。早期整合法和后期整合法在不同深度的dna分析中几乎都优于单流整合法。提出的中间积分法,4个隐层,每21.5%,即使隐层数较多,也优于早期积分 法和晚期积分法。
图4。TIMIT核心测试上的帧电话错误率被设置为使用不同特性和组合方法的隐藏层数的函数。
中间集成的另一个问题是集成层应该位于何处。为了回答这个问题,我们进一步研究了在DNN中隐藏层最大数量设置为6时,改变分离层和集成层数量的效果。
表 I给出了详细的性能,并揭示了一个单独的层和4个集成层是最好的。从表中我们可以看到,随着总隐藏层保持不变/如果单独的层的数量有下降的趋势减少,例如 5隐藏层的情况下,每稳步下降22.09%(四个独立的层和一个组合层)到21.40%(一个单独的层和四层组合),这是相对减少6.1%比较最好的系 统。结果表明,单个流不应学习太多的层之前的组合,一层或两层分离可能就足够了。
五、结论与未来工作
在 本文中,我们提出了一种将DNN-HMM框架中的多个流组合在一起的中间集成方法,并将其与早期集成和晚期集成方法进行了比较。结果表明,使用中间集成在 性能、复杂性和灵活性方面具有明显的优势。单个流的组合不应该来得太迟。实验结果表明,利用所提出的组合方法可以提供一些好处,当结合更多的互补功能。更 广泛的实验,如改变DNN中隐藏节点的数量和尝试更多的特征流可能会被进一步探索。
更多推荐
所有评论(0)