tacotron2 & 注意力机制 & self-attention学习
我们在机器翻译、语音识别、语音合成、语音转换等任务中,常常需要对序列数据进行处理,传统的方法不但繁琐且效果有限,目前常见的端到端seq2seq方法很值得学习。1. 序列到序列序列到序列最早应用于机器翻译领域,后面推广到语音合成等领域。该模型是针对输入和输出序列长度不相同的情况下,即建模两种不同域的映射关系。序列到序列包含编码器(encoder)和解码器(decoder)两个部分。编码器和解码器常用
我们在机器翻译、语音识别、语音合成、语音转换等任务中,常常需要对序列数据进行处理,传统的方法不但繁琐且效果有限,目前常见的端到端seq2seq方法很值得学习。
1. 序列到序列
序列到序列最早应用于机器翻译领域,后面推广到语音合成等领域。该模型是针对输入和输出序列长度不相同的情况下,即建模两种不同域的映射关系。
- 序列到序列包含编码器(encoder)和解码器(decoder)两个部分。编码器和解码器常用LSTM等网络构成,将一个域的序列转换到另一个域的序列。
- 编码器网络负责接收源句子的embedding并提取特征;解码器网络负责将编码文本解码输出成翻译的语言。这两个过程分别称为编码和解码的过程。
- 编码器输出编码文本(encoder_out),为decode开始标志位( frame)。在编码器中,所有的字符将embedding成为一个词向量再进行编码。由于解码器(decoder)是一个自回归的过程,对于第一个decoder单元,则使用一个初始化的全零向量()作为解码过程的起始状态。
但是LSTM网络在长序列下,序列尾难以关注到序列头部的信息,这无疑局限了机器翻译的性能。为了在翻译过程中,将注意力面向全局,有了注意力机制与序列到序列的结合。
2. 注意力机制Attention
(1)why attention?
在Attention诞生之前,已经有CNN和RNN及其变体模型了,那为什么还要引入attention机制?主要有两个方面的原因,如下:
- 计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。
- 优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络中的长距离依赖问题,且信息“记忆”能力并不高。
(2)什么是注意力机制?
当我们读一句话时,大脑会首先记住重要的词汇,这样就可以把注意力机制应用到自然语言处理任务中,于是人们就通过借助人脑处理信息过载的方式,提出了Attention机制。
从本质上理解,Attention就是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。
(3)典型的—自注意力机制self-attention
自注意力机制是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
为什么自注意力模型(self-Attention model)在长距离序列中如此强大?卷积或循环神经网络难道不能处理长距离序列吗?
答:当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络CNN或循环网络RNN进行编码来得到一个相同长度的输出向量序列,无论CNN还是RNN其实都是对变长序列的一种“局部编码”:CNN显然是基于N-gram的局部编码;而对于RNN,由于梯度消失等问题也只能建立短距离依赖。要解决这种短距离依赖的“局部编码”问题,建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络。全连接网络虽然是一种非常直接的建模远距离依赖的模型, 但是无法处理变长的输入序列。不同的输入长度,其连接权重的大小也是不同的。
这时用注意力机制来“动态”地生成不同连接的权重,这就是自注意力模型(self-attention model)。由于自注意力模型的权重是动态生成的,因此可以处理变长的信息序列。
下面看一个例子:
下列句子是我们想要翻译的输入句子:
The animal didn’t cross the street because it was too tired
这个“it”在这个句子是指什么呢?它指的是street还是这个animal呢?
对于我们来说能很简单的判断出来,但是对于机器来说,是很难判断的,self-attention就能够让机器把it和animal联系起来。当模型处理这个单词“it”的时候,自注意力机制会允许“it”与animal,street建立联系。以编码过程为例,随着模型处理输入序列的每个单词,自注意力会关注整个输入序列的所有单词(计算注意力得分),帮助模型对本单词更好地进行编码。
第一步就是从每个单词的词向量中生成三个向量。也就是说对于每个单词,通过网络预处理,生成词嵌入embedding,再分别与三个权重矩阵相乘,生成三个向量:一个查询向量(Query)、一个键向量(Key)和一个值(Value)向量。
一个简单比喻就是在档案柜中找文件。查询向量q就像一张便利贴,上面写着你正在研究的课题。键向量k像是档案柜中文件夹上贴的标签。当你找到和便利贴上所写相匹配的文件夹时,拿出它,文件夹里的东西便是值向量v。
将单词的查询向量分别乘以每个文件夹的键向量,得到各个文件夹对应的注意力得分(这里的乘指的是向量点乘,乘积会通过 softmax 函数处理)。
乘积的方式常见的有两种,如下所示:
注意力得分为A‘:(当然,也可以不用softmax,用relu等)
最后,将每个文件夹的值向量乘以其对应的注意力得分,然后求和,得到最终自注意力层的输出。
总结起来就是如下公式:
例如:
在当前词的Query向量与同序列其他单词的Key向量和Value向量相乘的过程中,其他词的含义会融入到注意力算出来的Z向量中。其中,Z向量可称之为注意力上下文(attention_context)。每个序列将产生等于序列字符个数的Z向量,而每个Z向量都隐含了整个序列的上下文信息。所谓的注意力机制,正是在当前词向量的生成过程中,渗透进句子的上下文信息。基于不同方式的注意力机制,计算方式不同,渗透进句子信息的侧重点也有所不同。tacotron2中使用的是位置敏感注意力机制,凸显出位置二字。
引入注意力机制的机器翻译流程图:
3. tacotron2
Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。是一个完整神经网络语音合成方法。模型主要由三部分组成:
- 声谱预测网络:一个引入注意力机制(attention)的基于循环的Seq2seq的特征预测网络,用于从输入的字符序列预测梅尔频谱的帧序列。
- 声码器(vocoder):一个WaveNet的修订版,用预测的梅尔频谱帧序列来生成时域波形样本。
- 中间连接层:使用低层次的声学表征-梅尔频率声谱图来衔接系统的两个部分。
声谱预测网络主要包含一个编码器和一个包含注意力机制的解码器。编码器把字符序列转换成一个隐层表征,解码器接受这个隐层表征用以预测声谱图。
编码器Encoder:
编码器模块包含一个字符嵌入层(Character Embedding),一个3层卷积,一个双向BiLSTM层。
- 输入字符被编码成512维的字符向量;
- 然后穿过一个三层卷积,每层卷积包含512个5x1的卷积核,即每个卷积核横跨5个字符,卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams),这里使用卷积层获取上下文主要是由于实践中RNN很难捕获长时依赖;卷积层后接批归一化(batch normalization),使用ReLu进行激活;
- 最后一个卷积层的输出被传送到一个双向的LSTM层用以生成编码特征,这个LSTM包含512个单元(每个方向256个单元)。
解码器Decoder:
括号内为测试时观测到的特征维度。由于使用的声码器为LPCnet,BFCC维度为36维。以上的Q、K、V向量仅方便理解的粗略划分,请勿较真。可以将tacotron2的注意力机制类比到自注意力机制的计算方式,需要生成三个向量,用于注意力的计算。在训练过程中,Q向量包含了音频与文本的混合信息,K向量包含了累加注意力权重与当前注意力权重之和(位置敏感注意力的精髓所在),累加注意力权重过程中体现了位置信息,有助于防止语音合成过程的错漏字情况,V向量则为encoder输入的编码文本,将在decoder过程中逐步输入。
更多推荐
所有评论(0)