语音识别--gmm-hmm思考

简单回顾一下今天所看的内容：gmm-hmmpdf：概率密度函数，在这里可以由gmm来估计，同样也可以用dnn来估计。gmm：高斯混合模型，单高斯函数，多高斯函数。能拟合任何函数，这里会涉及到均值方差等变量语音有短时平稳的特性，可以用高斯混合模型来估计；从而就会有概率密度函数。hmm：隐马尔科夫模型，双马尔科夫链的过程。关键在于理解状态。首先需要的说的马尔科夫链。当与时间无关时，...

cug_coffee

418人浏览 · 2020-03-01 01:29:51

cug_coffee · 2020-03-01 01:29:51 发布

简单回顾一下今天所看的内容：

gmm-hmm

pdf：概率密度函数，在这里可以由gmm来估计，同样也可以用dnn来估计。
gmm：
高斯混合模型，单高斯函数，多高斯函数。
能拟合任何函数，这里会涉及到均值方差等变量
语音有短时平稳的特性，可以用高斯混合模型来估计；从而就会有概率密度函数。
hmm：隐马尔科夫模型，双马尔科夫链的过程。关键在于理解状态。
首先需要的说的马尔科夫链。当与时间无关时，就是齐次马尔科夫链。
隐马尔科夫模型的特性。
参数问题：
A: 转移概率[a_ij]
π：初始化概率[π_i]
B: 概率密度函数，离散连续的问题，这里就是概率密度函数了，这里就是上面的pdf了。gmm或者dnn来估计。
B: 在给定观察序列时，各个状态的概率是多少。即可以理解为gmm的输出或者dnn的输出。各个聚类的概率。
隐马模型的训练，在于估计转移概率，概率密度函数的各个参数。
gmm-hmm . -> dnn-hmm:
这里就是指概率密度函数的替换，也就是对参数估计的替换，即B的替换。
dnn-hmm . -> dnn-ctc:
这里是ctc替换了hmm，将序列的训练转换成了ctc模型。
ctc替换了hmm，在代码层面的表象上，就是指topo还掉了。
对于hmm，一个hmm，三状态，见拓扑hmm的表示。
对于ctc，一个token可以跳转到blk，blk不能跳回token了。
ctc-hmm核心在于序列训练的准则。