一、什么是音量标准化,为什么要做音量标准化:

  麦克风接收到的语音会因为mic增益、说话者距离、实际环境等的不同导致音量大小不稳定,这种情况一方面会影响语音识别,另一方面也会影响人的听感。所以,在获取到mic语音时,需要进行音量标准化,把音量增益到(有可能放大,也有可能缩小)一个比较稳定的水平。

二、音量标准化的方法

  音量标准化比较通用的方法主要有两种:

(1)峰值标准化(PEAK (LEVEL) NORMALIZATION)
  峰值标准化,顾名思义,就是将音频最大(Peak)的地方,调整到特定大小,然后其他音频做相对应的增/减调整。

在这里插入图片描述
  比如上图中的左侧,将各个音频做相对调整,将所有音频文件的最大音量拉到0 db。这种方法的优点是简单,只需要找到最大音量并根据最大音量进行处理就决定了整体的音量调整,当然最终处理出的的结果好坏会根据最大音量而受到影响。
  PEAK (LEVEL) NORMALIZATION是在电平值的定义下进行音量的调整的。CoolEdit音频软件中的音量标准化就是采样峰值标准化。

(2)响度标准化(LOUDNESS NORMALIZATION)
  响度标准化需要先计算出整体声音的平均音量,再将根据平均音量和期望音量差值作为调整依据。上图右边的范例,就是将各个音频的音量统一调整到平均音量(绿色区域上界)-24db上。这种方式计算比较复杂,并且音量较大的地方在调整后,可能由于音量爆表而被裁剪。所以最终处理后的音频各个音量间的对比会产生变化。

  sox --norm=-1 命令使用的就是响度标准化。目标音量是-1dBFS。

三、理论原理(生理原理)
  等响度概念: 声音实际响度和人耳实际感受的响度并不完全呈线性关系,在小音量的时候,人耳对中高频的听觉会有生理性衰减,音量越小,这种衰减越明显。等响度控制其作用是在低音量时提升高频和低频成分的音量,使得低、中、高部分的响度比例保持和在大音量时的响度比例相同。等响度控制即满足此要求,等响度控制一般为8dB或10dB。 为了在小音量的时候保持人耳听觉相对大音量时高低频段听觉的等响度效果,有些前级放大器插入了等响度效果电路,原理是在小音量的时候适当提升中高频段放大比例,达到人耳听感的一致性。
  等响度曲线: 每个人的等响度曲线是不同的,平衡不同人的等响度特性,可以大致得出人类不同响度下的等响度曲线。 等响度控制电路在原理上分两种,一种是固定等响度控制量的电路,比较简单,这种电路一般设有一个等响度开关,当需要的时候按下等响度开关就行。还有一种是高级的线性等响度控制电路,随着音量的大小,等响度补偿的量会改变,达到最线性的效果,这样的电路往往没有等响度开关,是由音量电位器线性控制的。
          纯音的标准等响曲线
               纯音的标准等响曲线

  在图中,横坐标是频率,纵坐标是声压级。声压是大气压受到扰动后产生的变化,即大气压强的余压,它相当于在大气压强上叠加一个扰动引起的压强变化。由于声压的测量比较容易实现,通过声压的测量也可以间接求得质点速度等其它物理量,所以声学中常用这个物理量来描述声波。声压级以符号SPL表示,其定义为将待测声压有效值p(e)与参考声压p(ref)的比值取常用对数,再乘以20。图中每条曲线所对应的不同频率的声压级是不相同的,但人耳感觉到的响度却是一样,每条曲线上注有一个数字,单位是响度方。由等响曲线族可以得知,当响度较小时,人耳对高低音感觉不灵敏,而响度较大时,高低音感觉逐渐灵敏,而对2000Hz~5000Hz之间的声音最为敏感。

  在图中不同响度的曲线上,2000Hz ~ 5000Hz频率范围内的声压级,均处于整个曲线相对较低声压级的位置,说明人耳对中频的响应灵敏。在这个范围之外的低频和高频两边,等响度曲线翘起,说明人耳对低频和高频声音的灵敏度下降,对低于(16 ~ 20)Hz和高于(18000 ~ 20000)Hz的纯音,不论声级多高,绝大多数的人都感觉不到声音的存在,因此将20Hz ~ 20000Hz定为音频。人耳能听到声音的最微弱强度,称为听觉阈(图中虚线),产生疼痛感的最高声音强度,称为痛觉阈。由听觉阈和痛觉阈所构成的两条等响度曲线,是等响度曲线的上下限。

  响度主要决定于声强,提高声强,响度级也相应增加。但是声音的响度并不是单纯由声强决定的,还取决于频率,不同频率的纯音有不同的响度增长率,其中低频纯音的响度增长率比中频纯音要快。例如,在响度60 phone的曲线上,从125Hz一直到16000Hz的各频率纯音的声压级,基本都在60dB上下,而低于125Hz的低频的声压级,将随着频率的降低迅速地增加,在20Hz频率时的声压级达到约96dB!再比如,从听觉的闻阈到痛阈,1000Hz纯音的声压级范围近似0 ~ 130dB,区间宽达130dB,而20Hz纯音的声压级已经压缩到大约70~150dB的范围,区间仅80dB。
在这里插入图片描述
人耳对响度的感觉随声压级变化。声压级低时,分辨率差;声压级高,分辨率提高。

1.曲线0代表可听阈。低于此线之下不可闻。

2.响度级低时,各频率声压级相差很大。可差50dB以上。

3.当响度级别较高时,等响曲线近似水平(高保真放声在高声时,高低音都丰厚)。

4.在高频段曲线间隔相同,说明声压级变化时,响度级变化几乎相同。在低频段等响曲线间隔小,等响曲线对声压变化很灵敏。如80Hz,声压从60dB~80 dB,响度从30~70方。

响度级只反映不同频率的声音的等响感觉,不能表示一个声音比另一个声音响多少倍的主观感觉。

响度:是描述声音大小的主观感觉量,响度的单位是"宋"(sone)。

定义:1000Hz纯音,声压级为40 dB时的响度为1宋;2宋的声音是40方声音响度的2倍;4宋为40方声音响度的4倍。多次人平均,响度级每增10方,响度增加一倍。也就是说,声压级增加10dB, 响度增加一倍。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐