前面笔者花了数讲的时间讲解了基于神经网络和深度学习模型的自然语言处理技术,对深度学习在常规的文本序列模型中有了一个基本的了解。本节笔者要给大家介绍序列模型的一个新的应用领域——自动语音识别(Automatic Speech Recognition,ASR),也可以简称为语音识别。说新领域也有点夸张,因为语音识别可以作为一种广义的自然语言处理技术,是用于人与人、人与机器进行更顺畅的交流的技术。语音识别目前已使用在生活的各个方面:手机端的语音识别技术,比如苹果的 siri;智能音箱助手,比如阿里的天猫精灵,还有诸如科大讯飞一系列的智能语音产品等等。本篇文章笔者想对语音识别技术做一个简单的综述,好对后面的学习和实践起到一个提纲挈领的作用。

1. 概述

     为了能够更加清晰的定义语音识别的任务,我们先来看一下语音识别的输入和输出都是什么。大家都知道,声音从本质是一种波,也就是声波,这种波可以作为一种信号来进行处理,所以语音识别的输入实际上就是一段随时间播放的信号序列,而输出则是一段文本序列。

640?wx_fmt=png

图1 语音识别的输入与输出

     将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。语言识别系统如下图所示:

640?wx_fmt=png

图2 语音识别系统

     信号处理和特征提取可以视作音频数据的预处理部分,一般来说,一段高保真、无噪声的语言是非常难得的,实际研究中用到的语音片段或多或少都有噪声存在,所以在正式进入声学模型之前,我们需要通过消除噪声和信道增强等预处理技术,将信号从时域转化到频域,然后为之后的声学模型提取有效的特征向量。接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分,与此同时,语言模型,也就是我们前面在自然语言处理中谈到的类似 n-gram 和 RNN 等模型,会得到一个语言模型得分,最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构。这便是语音识别的一般原理。

640?wx_fmt=jpeg

图3 安德雷.马尔可夫

     因为语音识别相较于一般的自然语言处理任务特殊之处就在于声学模型,所以语言识别的关键也就是信号处理预处理技术和声学模型部分。在深度学习兴起应用到语言识别领域之前,声学模型已经有了非常成熟的模型体系,并且也有了被成功应用到实际系统中的案例。比如说经典的高斯混合模型(GMM)和隐马尔可夫模型(HMM)等。神经网络和深度学习兴起以后,循环神经网络、LSTM、编码-解码框架、注意力机制等基于深度学习的声学模型将此前各项基于传统声学模型的识别案例错误率降低了一个 level,所以基于深度学习的语音识别技术也正在逐渐成为语音识别领域的核心技术。

     语音识别发展到如今,无论是基于传统声学模型的语音识别系统还是基于深度学习的识别系统,语音识别的各个模块都是分开优化的。但是语音识别本质上是一个序列识别问题,如果模型中的所有组件都能够联合优化,很可能会获取更好的识别准确度,因而端到端的自动语音识别是未来语音识别的一个最重要的发展方向。

640?wx_fmt=png

图4 End2End Speech Recognizer

     所以,这一讲和下一讲主要内容的介绍顺序就是先给大家介绍声波信号处理和特征提取等预处理技术,然后介绍 GMM 和 HMM 等传统的声学模型,其中重点解释语音识别的技术原理,之后后对基于深度学习的声学模型进行一个技术概览,对当前深度学习在语音识别领域的主要技术进行简单了解,最后对未来语音识别的发展方向——端到端的语音识别系统进行了解。

2. 信号处理和特征提取

     因为声波是一种信号,具体我们可以将其称为音频信号。原始的音频信号通常由于人类发声器官或者语音采集设备所带来的静音片段、混叠、噪声、高次谐波失真等因素,一定程度上会对语音信号质量产生影响。所以在正式使用声学模型进行语音识别之前,我们必须对音频信号进行预处理和特征提取。

     最初始的预处理工作就是静音切除,也叫语音激活检测(Voice Activity Detection, VAD) 或者语音边界检测。目的是从音频信号流里识别和消除长时间的静音片段,在截取出来的有效片段上进行后续处理会很大程度上降低静音片段带来的干扰。除此之外,还有许多其他的音频预处理技术,大家可以找来信号处理相关的资料进行阅读,笔者这里不多说。

     然后就是特征提取工作。音频信号中通常包含着非常丰富的特征参数,不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取。常用的语音特征包括线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC),其中 LPCC 特征是根据声管模型建立的特征参数,是对声道响应的特征表征。而 MFCC 特征是基于人的听觉特征提取出来的特征参数,是对人耳听觉的特征表征。所以,在对音频信号进行特征提取时通常使用 MFCC 特征。

     MFCC 主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是 MFCC 最重要的部分。一个完整的 MFCC 算法包括如下几个步骤:

  • 快速傅里叶变换(FFT)

  • 梅尔频率尺度转换

  • 配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出

  • 对所有滤波器输出作对数运算,再进一步做离散余弦变换(DTC),即可得到MFCC。

640?wx_fmt=png

图5 傅里叶变换

     实际的语音研究工作中,也不需要我们再从头构造一个 MFCC 特征提取方法,Python 为我们提供了 pyaudio 和 librosa 等语音处理工作库,可以直接调用 MFCC 算法的相关模块快速实现音频预处理工作。

640?wx_fmt=png

图6 MFCC

     过去在语音识别上所取得成果证明 MFCC 是一种行之有效的特征提取方法。但随着深度学习的发展,受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并取得良好的效果。

3. 传统声学模型

     在经过语音特征提取之后,我们就可以将这些音频特征进行进一步的处理,处理的目的是找到语音来自于某个声学符号(音素)的概率。这种通过音频特征找概率的模型就称之为声学模型。在深度学习兴起之前,混合高斯模型(GMM)和隐马尔可夫模型(HMM)一直作为非常有效的声学模型而被广泛使用,当然即使是在深度学习高速发展的今天,这些传统的声学模型在语音识别领域仍然有着一席之地。所以,作为传统声学模型的代表,本小节就简单介绍下 GMM 和 HMM 模型。

     所谓高斯混合模型(Gaussian mixture model,GMM),就是用混合的高斯随机变量的分布来拟合训练数据(音频特征)时形成的模型。原始的音频数据经过短时傅里叶变换或者取倒谱后会变成特征序列,在忽略时序信息的条件下,这种序列非常适用于使用 GMM 进行建模。

640?wx_fmt=jpeg

图7 高斯混合分布

     如果一个连续随机变量服从混合高斯分布,其概率密度函数形式为:

640?wx_fmt=png

     在实际的 GMM 训练中,通常采用 EM 算法来进行迭代优化,以求取GMM中的加权系数及各个高斯函数的均值与方差等参数。

     GMM 作为一种基于傅里叶频谱语音特征的统计模型,在传统语音识别系统的声学模型中发挥了重要的作用。其劣势在于不能考虑语音顺序信息,高斯混合分布也难以拟合非线性或近似非线性的数据特征。所以,当状态这个概念引入到声学模型的时候,就有了一种新的声学模型——隐马尔可夫模型(Hidden Markov model,HMM)。

     在随机过程领域,马尔可夫过程和马尔可夫链向来有着一席之地。当一个马尔可夫过程含有隐含未知参数时,这样的模型就称之为隐马尔可夫模型。HMM 的核心概念是状态,状态本身作为一个离散随机变量,马尔可夫链的每一个状态上都增加了不确定性或者统计分布使得 HMM 成为了一种双随机过程。

640?wx_fmt=jpeg

     HMM 的主要内容包括参数特征、仿真方法、参数的极大似然估计、EM估计算法以及维特比状态解码算法等细节知识,笔者将在手动实现机器学习算法系列中详细介绍,本篇作为综述这里不做详细的展开。(未完待续)

参考资料:

Supervised Sequence Labelling with Recurrent

https://www.zhihu.com/question/20398418/answer/18080841

俞栋 邓力 解析深度学习 语音识别实践

http://www.eeboard.com/news/yuyinshibie/

往期精彩:


一个数据科学从业者的学习历程

640?

640?wx_fmt=jpeg

长按二维码.关注机器学习实验室

640?wx_fmt=jpeg

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐