语音识别基础知识二
1、声波的特性声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的震动形成压力波,产生压强,经过传感器接受转化,变成时变的电压信号。声波的特性主要包括频率和声强。某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位时Pa。声压级(sound pressure level, SPL),一般把很小的声压p0=2X10^(-5)Pa作为参考声压,把所要测量的声压p
1、声波的特性
声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的震动形成压力波,产生压强,经过传感器接受转化,变成时变的电压信号。
声波的特性主要包括频率和声强。某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位时Pa。
声压级(sound pressure level, SPL),一般把很小的声压p0=2X10^(-5)Pa作为参考声压,把所要测量的声压p与参考声压的比值取对数后,乘以20得到的数值称为声压级。
国家标准规定住宅区白天的噪音不能超过50dB,夜间应低于45分贝。
衡量声压的信噪比(signal to noise ratio, SNR)单位也用分贝,且数值越高,表示声音越干净,噪声比例越少。
2、声音的接受装置:动圈式/电容式麦克风。
动圈式麦克风: 精度、灵敏度较低,体积大,其突出特点是输出阻抗小,所以接较长的电缆也不降低其灵敏度,温度和湿度的变化对其灵敏度也无大的影响, 用于语音广播、扩声系统 。
电容式麦克风: 音质好,灵敏度较高,但需要电源, 适用于舞台、录音室等。
3、麦克风的性能指标
- 指向性:麦克风对于不同方向的声音灵敏度,称为麦克风的指向性。指向性用麦克风正面 0°方向和背面 180 °方向上的灵敏度的差值来表示,差值大于 15dB 者称为强方向性麦克风。
- 全指向性 麦克风从各个方向拾取声音的性能一致。当说话的人要来回走动时采用此类麦克风较为合适。
- 心形指向:麦克风的灵敏度在水平方向呈心脏形,正面灵敏度最大侧面稍小,背面最小。这种麦克风在多种扩音系统中都有优秀的表现。
- 单指向性:麦克风又称为超心形指向性麦克风,它的指向性比心形麦克风更尖锐,正面敏度极高,其它方向灵敏度急剧衰减,特别适用于高噪音的环境。
- 频率响应:表示麦克风拾音的频率范围,以及在此范围内对声音各频率的灵敏度。一般说来, 频率范围越宽、频响曲线愈平直越好。
- 灵敏度:一定强度的声音作用下输出电信号的大小,以分贝表示,并规定 1V/Pa 为 0dB ,因话筒输出一般为毫伏级,所以,其灵敏度的分贝值始终为负值。
- 输出阻抗
4、麦克风阵列的功能
麦克风阵列有线型、圆形等多种排列方式,主要实现一下功能:
①语音增强(Speech Enhancement)
②声源定位(Source Localization)
③去混响(Dereverberation)
④生源信号提取(分离)
5、声音的采样——奈奎斯特定理
声音的采样需要满足采样定理:当采样率大于信号中最高频率的两倍时,采样之后的数字信号能够完后曾保留原始信号中的信息。采样定律又称为奈奎斯特(Nyquist)定理。
6、声音的量化
所谓量化,就是把经过采样(抽样)得到的瞬时值将其幅度离散,即用一组规定的电平,把瞬时抽样值用最接近的电平值来表示;或指把输入信号幅度连续变化的范围分为有限个不重叠的子区间(量化级),每个子区间用该区间内一个确定数值表示,落入其内的输入信号将以该值输出,从而将连续输入信号变为具有有限个离散值电平的近似信号。
按照量化级的划分方式分,有均匀量化和非均匀量化。
均匀量化:ADC输入动态范围被均匀地划分为2^n份。
非均匀量化:ADC输入动态范围的划分不均匀,一般用类似指数的曲线进行量化。
非均匀量化是针对均匀量化提出的,因为一般的语音信号中,绝大部分是小幅度的信号,且人耳听觉遵循指数规律。为了保证关心的信号能够被更精确的还原,我们应该将更多的bit用于表示小信号。常见的非均匀量化有A律和μ率等,它们的区别在于量化曲线不同。
7、语音文件格式的重要参数
采样率:8kHz(电话、嵌入式)、16kHz(PC)、44.1kHz(CD)
采样精度(量化位数):即每次取样信息量。
比特率:(bps: bits per second), 如8k16bit为kpbs
语音通道数:语音通道数的个数表明语音产生的波形数,一般分为单声道和立体声道。单声道产生一个波形,立体声道则产生两个波形。
8、语音的编码
8.1 PCM编码
· 脉冲编码调制( pulse code modulation, PCM )是将模拟信号经采样、量化、编码的过程。它只将编码后的数据保存,并不保存任何格式信息。最大优点是音质好,最大缺点是占用存储空间。
· PCM 是 PC 麦克风常用格式( 宽带录音 ,16k16bit 可保存为 PCM raw data (.raw 文件 , 无头部)或 Microsoft PCM 格式(.wav 文件) 。
· 还有一种编码是自适应差分 PCM(ADPCM)、ADPCM编码是有损编码( 32kbps),保存为 Microsoft ADPCM 格式 (.wav 文件) 。
· 存储格式:
- PCM raw data(*.raw)
- Microsoft PCM(*.wav)
- Microsoft ADPCM(*.wav)
8.2 mp3编码
MP3对音频信号采用的是有损压缩方式,压缩率高达10:1~12:1 。为了降低声音失真度, MP3 采取了 感官编码技术并使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果。
8.3 A-law(A律)编码
1.ITU-T (国际电联电信标准局)定义的关于脉冲编码的一种压缩解压缩算法。
2.世界上大部分国家采用 A-law(A 律 压缩算法。美国采用 𝜇-law(𝜇律)算法进行脉冲编码。
3.固话录音(300-3300Hz)常用的格式(窄带录音 , 8k8bit)。
8.4 Speex编码
Speex 是一种音频编解码的开源库,压缩率变化范围较广,比特率 2kbps 到 44kpbs ,常用于网络状况复杂多变的移动终端应用。
8.5 其他常用格式
- AMR (Adaptive Multi Rate) :每秒钟的 AMR 音频大小可控制在 1K字节左右,常用于彩信、微信语音,但失真比较厉害。
- WMA (Windows Media Audio) :为抗衡 MP3 ,微软公司推出的一种新的音频格式,在压缩比和音质方面都超过了 MP3 。
- AAC (Advanced Audio Coding) :相对于 MP3,AAC 格式的音质更佳,文件更小。
- M4A : MPEG 4 音频标准的文件的扩展名,最常用的 .m4a 文件是使用 AAC 格式的。
- FLAC (Free Lossless Audio Codec) :自由音频压缩编码 2012 年以来被很多软硬件产品支持,其特点是无损压缩,不会破坏` 任何音频信息。
9 wav文件
WAV 文件是以 RIFF (resource interchange file format) 的档案格式储存,包含文件头( Header )与数据 Data )。
WAV 文件头由若干个 Chunk 组成的,按照在文件中的出现位置包括:WAVECHUNK, FMTCHUNK, FACTCHUNK( 可选 ), DATACHUNK ,具体包括如下结构体:
Header |
Data |
||||
WAVECHUNK |
FMTCHUNK |
FACTCHUNK |
DATACHUNK |
Wav文件头部格式说明表
偏移地址 |
字节数 |
数据类型 |
内 容 |
|
文件头 |
00H |
4 |
char |
"RIFF"标志 |
04H |
4 |
long |
文件长度 |
|
08H |
4 |
char |
"WAVE"标志 |
|
0CH |
4 |
char |
"fmt"标志 |
|
10H |
4 |
过渡字节(不定) |
||
14H |
2 |
short |
格式类别(10H为PCM形式的声音数据) |
|
16H |
2 |
short |
通道数,单声道为1,双声道为2 |
|
18H |
4 |
long |
采样率(每秒样本数),表示每个通道的播放速度, |
|
1CH |
4 |
long |
波形音频数据传送速率,其值为通道数×每秒数据位数×每样本的数据位数/8。 播放软件利用此值可以估计缓冲区的大小。 |
|
20H |
2 |
short |
数据块的调整数(按字节算的),其值为通道数×每样本的数据位值/8。 播放软件需要一次处理多个该值大小的字节数据,以便将其值用于缓冲区的调整。 |
|
22H |
2 |
short |
每样本的数据位数,表示每个声道中各个样本的数据位数。 如果有多个声道,对每个声道而言,样本大小都一样。 |
|
24H |
4 |
char |
数据标记符"data" |
|
28H |
4 |
long |
语音数据的长度 |
对wav文件进行处理之前,我们要先了解其格式是否符合规范,如电话录音往往8kHz8bit的格式,对应的比特率为64kbps,PC麦克风露营一般是16kHz16bit的格式,对应的i特吕为256kpbs。在电脑上可以选中wav文件,然后点击详细信息,查看是否满足条件。
本文的内容主要参考厦门大学洪青阳教授语音识别的课件。
更多推荐
所有评论(0)