长安大学毕业论文开题报告表

课题名称

基于Matlab的语音信号特征提取方法研究

课题来源

学生姓名

一、课题意义

自从各种机器被人类制造和使用,人机交流就是一个重要的研究课题。通过键盘,人机交流在一定程度上得以实现,但如果能使各种机器能听懂人的语言并按照人的口头命令行动,将会使人机的语言交流得以实现。这本来是一个美好的梦想,而语音识别技术的出现,使得这一梦想变成了现实。语音识别技术就是让机器通过识别和理解把语言信号转变为相应的文本或命令的高技术。当今,语音识别产品在人际交互应用中已经占到越来越大的比例。语音识别技术已经是新世纪一门十分热门的技术,在社会生活中具有举足轻重的重要意义。它广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等众多领域,带有语音功能的计算机也逐渐进入市场。

语音信号特征参数是语音识别领域的重中之重,是语音识别技术的前提和基础。因为语音识别是通过对比语音信号的各种特征量,因此只有分析出表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信和准确的语音识别。而且,语音信号特征参数的选择和自身的精确度直接影响着语音识别的准确率,因此如何提取各种特征参数,如何对特征参数进行选择,如何进一步提高特征参数的准确率,都是值得研究的课题。因此语音信号参数提取是语言信号处理研究中一项非常有意义的工作。

二、国内外发展状况

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。常见的特征参量有短时平均能量,短时过零率,基音周期,倒谱参数,感知线性预测参数等

目前主要运用的提取方法主要有以下几种:

LPC线性预测分析以及改进算法

语音的每个样值均可由过去若干个样值的线性组合来逼近,同时可采用使实际语音抽样与线性预测抽样之间的均方差最小的方式,来解出一组预测的系数。通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。基本思想就是,使用多个样本值对其加权求和时,使得方差最小的个样本值得加权系数。倒谱分析的实质是将频域相乘变为频域相加,以便于将激励和系统特征分开来研究。基本思想就是,使用多个样本值对其加权求和时,使得方差最小的个样本值得加权系数。线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。CEP利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。

2.MFCC算法及其改进算法

不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

通过对声音信号的经过一系列的处理计算得到的HZ频谱特征, 首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

过程如下,预滤波, A/D变换,预加重,分帧,加窗,快速傅立叶变换,三角窗滤波,求对数,离散余弦变换,谱加权,倒谱均值减,差分参数,短时能量,经过这一系列的操作得到的频率特征就是梅尔倒谱系数。

3.基于EMD 法的语音信号特征提取方法

(1) 通过EMD 方法获得语音信号的频率特征信息,即对输入语音信号先做EMD 分解获得8 个内模函数。

(2) 再对各内模函数作FFT

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐