【论文泛读】A Study of Non-autoregressive Model for Sequence Generation
问题为什么 知识蒸馏 和 源目标对准 可以弥补在诸如神经计算机翻译(NMT),自动语音识别(ASR)以及语音文字(TTS)等任务中的 AR 和 NAR 准确率的差距(AR 准确率大于NAR 准确率),但是其他任务中不行?解决对策AR 和 NAR 模型之间的主要区别是 NAR 模型不使用目标标记之间的依赖性,知识蒸馏减少了在目标序列中目标标记的依赖性,所以提高了 NAR 模型的准确性。源目标对齐约束
作者:Yi Ren, Jinglin Liu, Xu Tan, Zhou Zhao, Sheng Zhao and Tie-Yan Liu
问题
为什么 知识蒸馏 和 源目标对准 可以弥补在诸如神经计算机翻译(NMT),自动语音识别(ASR)以及语音文字(TTS)等任务中的 AR 和 NAR 准确率的差距(AR 准确率大于NAR 准确率),但是其他任务中不行?
解决对策
AR 和 NAR 模型之间的主要区别是 NAR 模型不使用目标标记之间的依赖性,知识蒸馏减少了在目标序列中目标标记的依赖性,所以提高了 NAR 模型的准确性。源目标对齐约束鼓励在资源获取中依赖目标标记,因此减轻了 NAR 模型的训练。提出了一个名为 CoMMA 的分析模型,量化此类依赖性。
名词理解
非自回归模型(NAR)的提出缓解了自回归模型的高时延问题。在非自回归模型(NAR)中,每个单词之间没有依赖关系,整个输出序列的每个单词被并行地同步预测。虽然其推断速度得到了很大改善,但是生成质量却往往弱于自回归模型(AR)。
简而言之,NAR 速度快,AR 生成质量高
摘要:
非自回归神经机器翻译模型(NAT) 对目标词的生成进行独立的建模,因此能够并行解码出整句译文,显著地提升了模型的翻译速度。然而,非自回归模型在翻译质量上与 自回归模型 有较大差距,主要表现为模型在长句上的翻译效果较差,译文中包含较多的重复词和漏译错误等。
已经提出了包括 知识蒸馏 和 源目标对准 的不同技术,弥补在诸如神经计算机翻译(NMT),自动语音识别(ASR)以及语音文字(TTS)之类的各种任务中的 AR 和 NAR 准确率的差距,但是其他任务中不行。
在这项工作中,我们进行了一项研究,了解 NAR 序列生成的难度,并尝试回答:
- 为什么NAR模型可以在一些任务中赶上AR模型,但不是全部?
- 为什么 知识蒸馏 和 源目标对齐 等技术可以帮助NAR模型?
- 由于 AR 和 NAR 模型之间的主要区别是 NAR 模型不使用目标标记之间的依赖性,而AR模型则直观地,NAR 序列生成的难度大大取决于目标标记之间的依赖性的强度。
为了量化此类依赖性,我们提出了一个名为 CoMMA 的分析模型。 - 调查结果:1)在 NMT 中,ASR 和 TTS 任务中,ASR 具有最具目标标记依赖性,而 TTS 具有最少。 2)知识蒸馏减少了在目标序列中目标标记的依赖性,因此提高了 NAR 模型的准确性。 3)源目标对齐约束鼓励在资源获取中依赖目标标记,因此减轻了 NAR 模型的训练。
名词解释:
- knowledge distillation 知识蒸馏
更多推荐
所有评论(0)