GMM-HMM孤立词识别

之前做过的GMM-HMM孤立词识别，现在整理一下。这里我们把输入的语音当做语音识别中的一个音素来建模，假定建模的HMM状态链是7状态的，因此，孤立词识别就是只用到了声学模型部分，没有涉及语言模型这些。1、将输入的一段语音进行分帧，对每帧计算MFCC特征，得到一组特征向量。比如（99*39 99帧，特征维度为33）.2、用无监督方法EM对特帧向量进行训练，得到5个GMM模型的参数（...

audiocool

1692人浏览 · 2019-09-19 16:45:34

audiocool · 2019-09-19 16:45:34 发布

之前做过的GMM-HMM孤立词识别，现在整理一下。

这里我们把输入的语音当做语音识别中的一个音素来建模，假定建模的HMM状态链是7状态的，因此，孤立词识别就是只用到了声学模型部分，没有涉及语言模型这些。

1、将输入的一段语音进行分帧，对每帧计算MFCC特征，得到一组特征向量。比如（99*39 99帧，特征维度为33）.

2、用无监督方法EM对特帧向量进行训练，得到5个GMM模型的参数（对应HMM状态数,7-2=5，开始与结束的两个状态没有GMM模型参数），包括均值、方差等权重值。HMM模型，包括转移概率。这里的GMM可以看做是一个聚类器，其训练过程可以看成是聚类器训练的过程。

3、解码过程用viterbi算法。解码输入一组特征向量，比如（99*39 99帧，特征维度为33）。对每一帧用GMM计算隐藏状态的概率值，得到（99*5）二维概率数组。结合HMM的转移概率，利用viterbi算法进行路径搜索，得到最大概率值。

4、将解码得到的概率值与预先设置的阈值比较大小，判决是否被识别。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

audiocool

@audio_algorithm

已为社区贡献5条内容