Microsoft: DEV287x Speech Recognition Systems 课程笔记01

语音学是语言学研究人类语言产生的声音的一部分。它包括他们的生产(通过人的声音器官)，他们的声学特性和感知。语音有三个基本分支，都与自动语音识别有关。发音语音学的重点是通过声道和各种发音器官来发声。声学语音学关注的是语音从说话者传递到听者的过程听觉语音学主要研究听者对语音的接收和感知。一、因素语音的分解单位叫做音素。...

林林宋

327人浏览 · 2019-04-30 17:31:16

林林宋 · 2019-04-30 17:31:16 发布

语音学是语言学研究人类语言产生的声音的一部分。它包括他们的生产(通过人的声音器官)，他们的声学特性和感知。

语音有三个基本分支，都与自动语音识别有关。

发音语音学的重点是通过声道和各种发音器官来发声。
声学语音学关注的是语音从说话者传递到听者的过程

听觉语音学主要研究听者对语音的接收和感知。

一、因素

语音的分解单位叫做音素。单词由一个或多个音素按顺序组成。音素的声学实现被称为语音。下面是一张美国英语的音素表和共同的实现。语音分类的主要方式是分成元音和辅音。

元音可以通过两个属性来区分。首先，它们是声音，这意味着从声带到口腔的气流是由声带在特定的基本频率(或音高)上的振动产生的。第二，舌头在生产过程中不会形成气流的收缩。舌头、嘴唇和下巴的位置可以区分不同的元音发音。这些不同的位置在声道内形成不同的共振峰，这些共振峰的共振频率是不同元音的特征。

辅音的特点是气道或口腔的气流明显收缩。像元音一样，一些辅音可以发声，而另一些则没有声音。未发声的音素与声带没有联系，因此没有一个基本的频率或音高。有些辅音音素是成对出现的，它们的区别只在于它们是发声的还是未发声的，而在其他方面是相同的。例如，音/b/和/p/都有相同的发音特征(你的嘴、舌头、下巴都在相同的位置上)，但是前者是发声的，后者是无声的。发音/d/和/t/是另一对。

音素的一个重要方面是它们的实现可以随着周围的语音改变。这被称为语音语境，它是由一种叫做协同发音的现象引起的。连续发出这些声音的过程改变了它们的特性。由共同发音引起的音素的修改版本被称为语位变体。

所有的语音识别系统都利用音素的语境依赖特性，在不同的语音语境中创建一个详细的音素模型。