GMM-HMM孤立词识别
之前做过的GMM-HMM孤立词识别,现在整理一下。这里我们把输入的语音当做语音识别中的一个音素来建模,假定建模的HMM状态链是7状态的,因此,孤立词识别就是只用到了声学模型部分,没有涉及语言模型这些。1、将输入的一段语音进行分帧,对每帧计算MFCC特征,得到一组特征向量。比如(99*39 99帧,特征维度为33).2、用无监督方法EM对特帧向量进行训练,得到5个GMM模型的参数(...
·
之前做过的GMM-HMM孤立词识别,现在整理一下。
这里我们把输入的语音当做语音识别中的一个音素来建模,假定建模的HMM状态链是7状态的,因此, 孤立词识别就是只用到了声学模型部分,没有涉及语言模型这些。
1、将输入的一段语音进行分帧,对每帧计算MFCC特征,得到一组特征向量。比如(99*39 99帧,特征维度为33).
2、用无监督方法EM对特帧向量进行训练,得到5个GMM模型的参数(对应HMM状态数,7-2=5,开始与结束的两个状态没有GMM模型参数),包括均值、方差等权重值。HMM模型,包括转移概率。这里的GMM可以看做是一个聚类器,其训练过程可以看成是聚类器训练的过程。
3、解码过程用viterbi算法。解码输入一组特征向量,比如(99*39 99帧,特征维度为33)。对每一帧用GMM计算隐藏状态的概率值,得到(99*5)二维概率数组。结合HMM的转移概率,利用viterbi算法进行路径搜索,得到最大概率值。
4、将解码得到的概率值与预先设置的阈值比较大小,判决是否被识别。
更多推荐
已为社区贡献5条内容
所有评论(0)