0_Speech Recognition Technology

本文是参考B站课程所做的笔记,仅供自己学习用

part 1: How do machines understand us

在这里插入图片描述

按照上图进行的步骤为:speech signal --> feature extraction --> decoding --> recognition result

其中decoding一步的步骤为:acoustic model --> dictionary --> language model

Part 2: An end-to-end ASR

由于传统的语音识别步骤比较繁琐,所以希望能够省去其中的步骤,直接由语音信号得出语音识别的结果,端到端技术的发展使得这一设想成为可能。
在这里插入图片描述

2006年,几位大神提出了CTC的概念:

在CTC出现以前,我们的输入需要依靠人为的分段,之后才能识别;

在CTC中,引入空字符、空格等特殊字符加上英文的26个字母,直接学习字母级别的映射关系,相同映射的部分用同一个字符来表示,最后进行合并。

在这里插入图片描述

CTC简单来说是一个损失函数,通过训练使损失达到最小。

但CTC的成立建立在序列字母间是相互独立的条件下,但文字的上下文间显然是有关联的。

在这里插入图片描述

2015年,注意力机制首次被提出应用(Attention based encoder-decoder)

注意力机制是一个双向网络,在预测字符的同时也兼顾了上下文间的信息,但由于它是双向网络,所以它无法预知未来出现的元序列,因此便出现了端到端。

端到端(streaming end-to-end),以online RNN-T模型为例,将当前的输出作为下一时刻的输入,便解决了注意力机制的缺陷。
在这里插入图片描述

Part 3: Useful dataset

当拿到一个语音数据集时要重点关注以下部分:

在这里插入图片描述

几个常见的数据集:

  1. 2000 HUB5 English: 从40个电话对话抽取的英语口语数据
  2. LibriSpeech: Audiobooks的数据集,包含了500个小时不同读者读的audiobooks录音,根据audiobooks的章节进行组织的。
  3. TED-LIUM: 1495个TED的演讲录音
  4. Free Spoken Digit Dataset: 1500个英语读数字的录音
  5. TIMIT: 630个美国英语发音的朗读者的数据集。

一些相关信息:

在这里插入图片描述

部分下载路径:

  • LibriSpeech http://www.openslr.org/12/

  • THCHS-30 http://www.openslr.org/18/

  • Aishell http://www.openslr.org/33/

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐