名词解释
缩略语全名称简单释义
APIApplication Programming Interface应用程序编程接口
DESData Encryption Standard数据加密标准
3DESTriple DES, Triple Data Encryption Algorithm三重数据加密算法块密码的通称
JSONJavaScript Object NotationJavaScript对象标记
SaaSSoftware as a Service软件即服务
SDKSoftware Development Kit软件开发工具包
XMLeXtensible Markup Language可扩展标记语言
ECMElectret Condenser Micphone驻极体电容麦克风
HCIHuman Computer Interaction人机交互
HMIHuman Machine Interaction人机交互
HCSIHuman Computer Speech Interaction人机语音交互
AIArtificial Intelligence人工智能
ANNArtificial Neural Networks人工神经网络
BPBack Propagation反向传播
HMMHidden Markov Model隐马尔可夫模型
ASRAutomatic Speech Recognition自动语音识别
NLPNatural Language Processing自然语言处理
OCROptical Character Recognition光学字符识别
TTSText To Speech语音合成
AECAcoustic Echo Canceller自动回声消除
AGCAutomatic Gain Control自动增益控制
ANSAutomatic Noise Suppression自动噪声抑制
BSSBlind Source Separation盲源分离
DBFDigital Beam Forming数字波束形成
DOADirection Of Arrival波达方向
DSPDigital Signal Processing数字信号处理
NSNoise Suppression噪声抑制
SDBSuper Directive Beamforming超指向波束形成
VADVoice Activity Detection语音活动检测
VQEVoice Quality Enhancement语音质量增强
SIRISpeech Interpretation & Recognition Interface语音识别接口
WWDCWorld Wide Developers Conference苹果全球开发者大会
背景介绍

麦克风阵列是由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。

远场拾音

指运用远场识别和降噪技术,使拾音距离达到5米。

声源定位

利用麦克风阵列,实现180°/360°语音信号采集,并能通过声源定位来确定目标说话人的方向。

麦克风及音频信号
什么是麦克风
  • 麦克风是英文Microphone的音译名称,是业界的一种通俗叫法,有时候也简单称作话筒,香港和台湾地区也会称作微音器、拾音器。

  • 麦克风的正式中文学术名称是传声器,是一种将声音信号转换为电子信号的换能器,即把声信号转成电信号。

  • 消费级市场的麦克风基本都是标量麦克风,也就说只能采集单一的物理量信息——声压。

①声压是指声波通过媒质时,由振动所产生的压强改变量,也可以理解为声音的幅度或者强度。声压常用字母"p"表示,单位是帕斯卡(符号Pa)。声压的帕斯卡单位并不方便人们识记,一般就以对数形式来衡量有效声压相对于一个基准值的大小来表示,即声压级,其单位是分贝(符号dB)。
②人类对于1KHz的声音的听阈为20 x10-6Pa,通常以此作为声压级的基准值。这样讲可能晦涩难懂,我们来简单的类比一下:人类的呼吸声压是60x10-6Pa左右,声压级大约10dB,火箭发射的声压是4000Pa左右,声压级大约165dB,闪光弹的声压超过1万Pa,声压级大约175dB。

  • 为了描述麦克风的性能,有几个性能指标是非常关键的,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。这几个指标其实都好理解,决定了麦克风的性能,而且每个指标都非常关键,缺一不可。当然这些指标相对于喇叭的T-S参数来说,真的是简单的了许多。

  • 麦克风是典型的传感器产业,但是其技术迭代非常迅速,近年来外观尺寸也发生了很大变化,集成到电路板中后一般人很难快速找出。

麦克风的分类

制作麦克风硬件最常用的两种技术是MEMS微机电和ECM驻极体电容技术。这两种技术工作原理类似,在实际应用场景中可以根据具体需要在二者之中进行选择。

一、 MEMS微机电麦克风
微机电麦克风也称麦克风芯片或硅麦克风,硅麦一般都集成了前置放大器,甚至有些硅麦会集成模拟数字转换器,直接输出数字信号,成为数字麦克风。

  1. MEMS传声器采用置于印刷电路板(PCB)并以机盖防护的MEMS(微机电系统)组件构建而成。在外壳上制作小孔,便于声音进入传声器,孔位于顶盖的叫作顶部端口型号,而孔位于PCB内部的叫作底部端口型号。MEMS组件设计通常会在半导体晶圆上构造机械振膜和安装结构。
  2. MEMS振膜形成一个电容器,而声压波则会引起振膜的运动。MEMS传声器通常含有另一个半导体晶圆,用作音频前置放大器,将MEMS的变化电容转换为电信号。如果用户需要模拟输出信号,可为其提供音频前置放大器的输出。如果用户需要数字输出信号,就在与音频前置放大器所处的同一晶圆上加入模数转换器(ADC)。
  3. MEMS传声器中数字编码采用的通用格式是脉冲密度调制(PDM),可以只和一个时钟和一条单独的数据线通信。数据采用单比特编码,从而简化了接收器中数字信号的解码。

二、ECM柱极体麦克风

  1. 驻极体振膜(具有固定表面电荷的材料)靠近导电板隔开放置,并且和MEMS传声器相似,也会形成一个电容器,以气隙作为电介质。通过电容器的电压随着电容值的变化而变化,而电容的变化是由移动驻极体振膜的声压波引起的,ΔV= Q /ΔC。电容器电压变化由传声器外壳包覆的JFET进行放大和缓冲。JFET通常采用共源配置,而外部应用电路则采用外部负载电阻和隔直电容。
  2. 简单理解:MIC内部设计为一个电容,电容的一端是固定的,另一端是可动的,两端之间的距离和声音输入有关系,声音的大小、频率导致金属片震动产生幅度和频率的变化,在驻极体电容这边就转换为电容电荷量大小与充电快慢,在MIC输出端就表示为一个幅度和频率有随着声音输入变化而变化的电信号。
麦克风的对比选型
MEMS微机电麦克风ECM柱极体电容麦克风
优点体积小,可SMT、产品稳定性好技术成熟、价格便宜
缺点价格偏高体积大,不方便SMT、引线长,造成信号衰减、生产工序多,一致性差、灵敏度不稳定
麦克风阵列简介
语音交互的优势

相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。正常来说语音输入的速度是传统输入方式的三倍以上,而随着深度学习技术的发展,当前语音的识别率可以达到97%。

人机交互痛点

1)识别距离近:语音交互受限距离不能进行远场的识别
2)对话不智能:不能持续进行多轮对话不能打断
3)嘈杂环境:在嘈杂环境下识别率低饱受噪声干扰
4)响应时间慢:不能即时快速响应交互不流畅导致体验下降

近场语音和远场语音

一、 近场语音
大家应该都体验过有屏手持设备的语音交互,如Siri以及各种语音助手App,我们把这种采用单颗麦克风进行拾音及识别的场景叫做近场语音识别。
近场语音存在一些先天性的缺陷:
1)近距离讲话:1米以内交互效果较好,超出1米后很难识别;
2)对环境有要求:尽量安静,周围不能有噪声干扰;
3)标准人声发音:字正腔圆普通话,其它的很难支持;
4)无法自动多轮交互:需由用户触发一次交互的开始及结束;
5)不支持打断功能:机器发声结束后才可以进行下一轮对话。

二、远场语音
1)提供麦克阵列前端算法,解决人机交互中,距离较远带来的识别率较低的问题,让人机对话更加方便
2)通过远场语音识别技术,可以让用户,即使在三至五米的距离,也可对智能家居进行语音操作

麦克风阵列的功能

人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,涉及到复杂的环境和远距离拾音的问题。通过麦克风阵列使语音交互距离大大增加,使人机交互更加自然,更趋向于人人交互。
在这里插入图片描述

  • 人机交互过程中的噪声可以分为以下几类:回声,混响,干扰和背景噪声;
  • 麦克风阵列具备的功能:自动增益控制;回声控制、回声消除、回声抑制;去混响;声源定位、波束形成、语音增强、盲源分离、干扰抑制;噪声控制、主动噪声控制、降噪等。
麦克风阵列构型

在这里插入图片描述

  1. 六麦环形阵列:六麦环形阵列适用于应用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。
  2. 四麦线性阵列:四麦线性阵列适用于车载,空调,电视,应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。
  3. 两麦线性阵列:两麦线性阵列对芯片性能要求较低,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。

以六麦阵列为例,其具备以下功能特性:
1)波束形成(波束形状是阵列对不同频率及方向的信号的响应,它与阵列麦克风数目、几何形状、源信号位置以及频率有关。);
2)回声消支持信噪比-30dB左右;
3)平稳噪声滤波;
4)方向性非平稳噪声抑制;
5)语音增强和去混响;
6)声源定位精度±10°。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐