第2章第2节 语音采集

本章主要介绍AI语音交互的原理,包括语音交互的流程以及各流程节点所涉及的相关知识,如语音采集、语音识别、自然语言处理、语音合成等。

目录

第2章第2节 语音采集

2.2.2  影响语音采集水平的因素

1. 声源采样率

2. 采集设备:麦克风选型

3. 采集设备:麦克风阵列


2.2.2  影响语音采集水平的因素

语音采集的水平高低,严重影响后续语音识别结果的正确性,因此影响到整体语音交互的效果。

一般影响语音采集水平的因素有如下几点:

1. 声源采样率

人类语音的频段集中于50Hz ~ 8kHz之间,尤其在4kHz以下频段。常用采样率:8kHz (即0 ~ 4kHz频段),16kHz(即0 ~ 8kHz频段)。

2. 采集设备:麦克风选型

(1)信噪比((Signal Nopise Ratio,SNR)):建议信噪比>=74dB

信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度。分贝在15dB以上(基本干净),6dB(嘈杂),0dB(非常吵)。

(2)灵敏度:建议灵敏度>=-33dB

灵敏度定义是在94 dB 的声压级(SPL)下,用1 kHz 正弦波进行测量,麦克风在该输入激励下的数字输出信号幅度。灵敏度是表示麦克风声电转换效率的重要指标。

由于人耳所感受到的响度与声功率呈对数关系,因此就用实际功率与参照功率(即0db)的比值来表示专用级强度,由于这个数值比较小,通常用分贝来作为单位,这样在数值上就扩大了10倍。

(3)气密性:建议气密性>=20dB

气密性主要指的是麦克风封闭性,防止声变。气密性越好,麦克风拾音质量越好。

(4)总谐波失真((Total Harmonic Distortion,THD))

THD衡量在给定纯单音输入信号下输出信号的失真水平,用百分比表示。此百分比为基频以上所有谐波频率的功率之和与基频信号音功率的比值。

THD数值越大,输入波形的失真越严重,高次谐波越丰富。数值越小,失真越小,高次谐波占的分量越小。

THD要求:

近场应用(<=1M)要求

  1. 100-200Hz THD<=20%。
  2. 200-400Hz THD<=14%。
  3. 400-8kHz THD<=8%。

远场应用(>=3M)要求

  1. 100-200Hz THD<=8%。
  2. 200-400Hz THD<=5%。
  3. 400-8kHz THD<=3%。

3. 采集设备:麦克风阵列

当前市场上存在以下几种常见的麦克风阵列设计方案。

(1)两麦线性阵列设计

 

图2-4  两麦线性阵列

(2)三麦环形阵列设计

 

图2-5  三麦环形阵列

(3)四麦线性阵列设计

 

图2-6  四麦线性阵列

(4)六麦球形阵列设计

 

图2-7  六麦球形阵列

区分说明:

(1)按阵列形状:线性、环形、球形麦克风。

在原理上,三者并无太大区别,只是由于空间构型不同,导致它们可分辨的空间范围也不同。比如,在声源定位上,线性阵列只有一维信息,只能分辨180度。环形阵列是平面阵列,有两维信息,能分辨360度。球性阵列是立体三维空间阵列,有三维信息,能区分360度方位角和180度俯仰角。

(2)按麦克风个数:双麦、多麦。

麦克风的个数越多,对说话人的定位精度越高,在嘈杂环境下的拾音质量越高。

(3)按适用场景。

两麦线性阵列对芯片性能要求较低,支持0-180°角度定位,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。

四麦线性阵列适用于车载、空调、电视、应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。

六麦球形阵列适用于适用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐