之前做过的GMM-HMM孤立词识别,现在整理一下。

这里我们把输入的语音当做语音识别中的一个音素来建模,假定建模的HMM状态链是7状态的,因此, 孤立词识别就是只用到了声学模型部分,没有涉及语言模型这些。

1、将输入的一段语音进行分帧,对每帧计算MFCC特征,得到一组特征向量。比如(99*39 99帧,特征维度为33).

2、用无监督方法EM对特帧向量进行训练,得到5个GMM模型的参数(对应HMM状态数,7-2=5,开始与结束的两个状态没有GMM模型参数),包括均值、方差等权重值。HMM模型,包括转移概率。这里的GMM可以看做是一个聚类器,其训练过程可以看成是聚类器训练的过程。

3、解码过程用viterbi算法。解码输入一组特征向量,比如(99*39 99帧,特征维度为33)。对每一帧用GMM计算隐藏状态的概率值,得到(99*5)二维概率数组。结合HMM的转移概率,利用viterbi算法进行路径搜索,得到最大概率值。

4、将解码得到的概率值与预先设置的阈值比较大小,判决是否被识别。

 

 

 

 

 

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐