语音识别之声学模型知识（个人整理）

语音识别之声学模型知识（个人整理）声学模型声学模型使用高斯混合-隐马尔科夫模型（GMM-HMM），训练该模型的准则有：①早期的最大似然准则（ML）②中期的序列判别训练法（sequence hierarchical model）③目前广泛使用的基于深度学习的方法。未完待续...

抽屉疯了

5240人浏览 · 2021-12-04 10:21:16

抽屉疯了 · 2021-12-04 10:21:16 发布

语音识别之声学模型知识（个人整理）

声学模型
声学模型使用高斯混合-隐马尔科夫模型（GMM-HMM），训练该模型的准则有：
①早期的最大似然准则（ML）
最大似然估计原理
②中期的序列判别训练法（sequence hierarchical model）
③目前广泛使用的基于深度学习的方法。

一、高斯混合模型
GMM模型用在说话人识别、语音降噪以及语音识别方面。
设正态随机向量为
在这里插入图片描述

X的多元高斯分布是
在这里插入图片描述
其中，D是X的维度，Σ是DxD维的协方差矩阵，μ是期望向量，Σ=E(X-μ)(X-μ)。记为X~N(μ,Σ)。

一个连续随机变量X的混合高斯分布的概率密度函数为：
在这里插入图片描述

其中，cm为加权，混合权重的累加和为
在这里插入图片描述
混合高斯分布随机变量X的期望是

多元混合高斯分布的联合概率密度函数为
![在这里插入图片描述](https://img-blog.csdnimg.cn/2be87dff164048f99c1745157280720b.png
二、参数估计
对于多元混合高斯分布的参数变量为

参数估计估计的目标是选择合适的参数使混合高斯模型符合声学模型，使用最大似然估计，混合高斯分布的协方差参数和均值参数，公式如下
在这里插入图片描述

其中，后验概率h公式为

j是基于当前第j次的参数估计，m是m个混合高斯分布，xt的条件概率取决于每一次采样。

GMM模型适合用来对语音特征建模，而现实世界中组成字的音节所包含的语音特征是有时间顺序概念的，这里用HMM对先后次序特征进行建模。GMM模型的缺点是不能有效地对呈非线性或者近似线性的数据进行建模。

三、隐马尔科夫模型
声学模型的状态本身是离散随机变量，这可以用隐马尔科夫模型（HMM）表示，设N个隐藏状态的集合为
在这里插入图片描述
M个观测状态的集合

对于一个时间长度为T的序列，I状态序列为

观测序列为

在时刻t的隐藏状态it=qi和在t+1时刻的隐藏状态it+1=qj，他们的状态转移概率为
在这里插入图片描述
当转移概率与时间无关，可得到齐次马尔科夫链，矩阵表示为

设t时刻观测概率为

在语音识别中，使用HMM概率密度函数来描述观测向量的概率分布，选择GMM对其建模，公式如下

其中

隐马尔科夫模型是序列的概率模型，在每个时刻都有一个状态与之对应，其被用来描述一个含有隐含位置参数的马尔科夫过程。计算p(sequence|model)包括对指数状态序列求和，这可以使用动态规划递归求解，模型参数训练的目标是最大化训练数据集的概率，其涉及两个重要的算法：
①前向后向算法：递归计算状态概率，在模型训练时使用。
②维特比算法：对于给定的字符序列，查找到最有可能的HMM状态序列。早期基于HMM的语言模型使用向量量化（Vector Quantization）方法将语音特征映射到一个符号集（通常有256个符号），每一个发音又三个马尔科夫状态表示，就是三音素模型。