参考

华为云学院

DNN-HMM

深度神经网络-隐马尔科夫模型(DNN-HMM)利用DNN的特征学习能力和HMM的序列化建模能力进行语音识别任务的处理,在很多大规模任务中,其性能远优于传统的GMM-HMM混合模型。
DNN:特征的学习能力,估计观察特征的概率,预测状态的后验概率。
HMM:描述语音信号的序列变化,预测后面的序列。

DNN-HMM语音识别

声学信号使用HMM框架建模,每个状态的生成规律使用DNN替换原来的GMM,DNN每个单元的输出表示状态的后验概率。
在这里插入图片描述

CD-DNN-HMM

虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN表现出了比GMM更大的优越性。不同于GMM,DNN引入了上下文信息(前后特征帧信息),被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。

CD-DNN-HMM组成

CD-DNN-HMM由三部分组成:DNN(1),HMM(1),状态先验概率分布(1)。由于CD-DNN-HMM和GMM-HMM共享因素绑定结构,所以训练CD-DNN-HMM第一步就是使用训练数据训练一个GMM-HMM,利用Viterbi进行解码产生的标准结果用于DNN。

CD-DNN-HMM 性能提升

(1)使用更深的神经网络。(2)使用更长的帧作为输入。(3)使用三因素进行建模。(4)提升训练数据的标注质量。(5)预训练(浅层DNN)。

DNN训练加速

(1)多GPU反向传播。(2)异步随机梯度下降。(3)减少模型规模。(4)集成。

DNN解码加速

(1)并行计算。(2)稀疏网络。(3)低秩近似。(4)多帧DNN。

DNN由于GMM

DNN是一种判别模型,自身便带有区别性,可以更好区别标注类别。DNN在大数据上有非常优异的表现,随着数据量的不断增加,GMM模型在2000小时左右会出现性能的饱和,而DNN可支持10000小时以上。DNN对噪声有更强的robust,通过加噪训练,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐