0_Speech Recognition Technology

本文是参考B站课程所做关于语音识别的笔记，仅供自己学习用

Misivoa

774人浏览 · 2022-08-04 17:54:53

Misivoa · 2022-08-04 17:54:53 发布

0_Speech Recognition Technology

本文是参考B站课程所做的笔记，仅供自己学习用

part 1: How do machines understand us

在这里插入图片描述

按照上图进行的步骤为：speech signal --> feature extraction --> decoding --> recognition result

其中decoding一步的步骤为：acoustic model --> dictionary --> language model

Part 2: An end-to-end ASR

由于传统的语音识别步骤比较繁琐，所以希望能够省去其中的步骤，直接由语音信号得出语音识别的结果，端到端技术的发展使得这一设想成为可能。
在这里插入图片描述

2006年，几位大神提出了CTC的概念：

在CTC出现以前，我们的输入需要依靠人为的分段，之后才能识别；

在CTC中，引入空字符、空格等特殊字符加上英文的26个字母，直接学习字母级别的映射关系，相同映射的部分用同一个字符来表示，最后进行合并。

在这里插入图片描述

CTC简单来说是一个损失函数，通过训练使损失达到最小。

但CTC的成立建立在序列字母间是相互独立的条件下，但文字的上下文间显然是有关联的。

在这里插入图片描述

2015年，注意力机制首次被提出应用（Attention based encoder-decoder）

注意力机制是一个双向网络，在预测字符的同时也兼顾了上下文间的信息，但由于它是双向网络，所以它无法预知未来出现的元序列，因此便出现了端到端。

端到端（streaming end-to-end），以online RNN-T模型为例，将当前的输出作为下一时刻的输入，便解决了注意力机制的缺陷。
在这里插入图片描述

Part 3: Useful dataset

当拿到一个语音数据集时要重点关注以下部分：

在这里插入图片描述

几个常见的数据集：

2000 HUB5 English: 从40个电话对话抽取的英语口语数据
LibriSpeech: Audiobooks的数据集，包含了500个小时不同读者读的audiobooks录音，根据audiobooks的章节进行组织的。
TED-LIUM: 1495个TED的演讲录音
Free Spoken Digit Dataset: 1500个英语读数字的录音
TIMIT: 630个美国英语发音的朗读者的数据集。

一些相关信息：

在这里插入图片描述

部分下载路径：

LibriSpeech http://www.openslr.org/12/
THCHS-30 http://www.openslr.org/18/
Aishell http://www.openslr.org/33/

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

Misivoa

已为社区贡献1条内容