语音识别研究方向

Digital-Twin

2300人浏览 · 2021-10-07 16:00:21

Digital-Twin · 2021-10-07 16:00:21 发布

远场语音识别
1）语音激活检测（VAD）
```
需求背景：在近场识别场景，比如使用语音输入法时，用户可以用手按着语音按键说话，结束之后松开，由于近场情况下信噪比（signal to noise ratio, SNR））比较高，信号清晰，简单算法也能做到有效可靠。但远场识别场景下，用户不能用手接触设备，这时噪声比较大，SNR下降剧烈，必须使用VAD了。
```
2）语音唤醒（voice trigger，VT）
```
需求背景：在近场识别时，用户可以点击按钮后直接说话，但是远场识别时，需要在VAD检测到人声之后，进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等
```
3）麦克风阵列（Microphone Array）
```
需求背景：在会议室、户外、商场等各种复杂环境下，会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境，要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。另外，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。
```

**语音增强（Speech Enhancement）**：
当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后，从含噪声的语音信号中提取出纯净语音的过程。

**声源定位（Source Localization）**：
使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取

**去混响（Dereverberation）：**
声波在室内传播时，要被墙壁、天花板、地板等障碍物形成反射声，并和直达声形成叠加，这种现象称为混响。

**车载语音识别难点**
```

车内语音识别的难点很多，除了多人说话的干扰，还有胎噪、风噪，以及经常处于离线情况。据说有的公司专门在做车内降噪，还有些公司想通过智能硬件来解决，至少目前好像还没有哪个产品解决好了这个问题，并且获得了用户的口碑称赞的。
```