很多机器学习任务是以原始任务–对偶任务形式出现的,例如英语到德语的翻译和德语到英语的翻译、语音合成和语音识别、图像描述生成和文字生成图像。对偶学习是一种新的学习范式,它利用两个任务之间的对偶性来提高两个任务的训练或测试性能。

01 引言

深度学习正在驱动和引领人工智能(Artificial Intelligence,AI)的浪潮。随着深度学习的应用,人工智能在很多领域(例如计算机视觉、语音合成、自然语言处理、游戏等)取得了突破性进展。

  • 2015年,深度卷积神经网络ResNet(152 层)在大型图像分类数据集上实现了 3.57% 的识别错误率,超过了人类的识别错误率 5.1%。

  • 2016年,基于深度神经网络和树搜索的围棋程序 AlphaGo 打败了围棋世界冠军,成为历史上第一个超越顶尖人类专业选手的围棋程序。

  • 2016年,由微软设计的语音识别系统在一个公开的对话语音识别数据集上 实现了 5.9% 的单词错误率(Word Error Rate,WER)。这个效果达到了人类水平,甚至比专业的转译员的错误率更低。

  • 2018年,一个基于深度神经网络的翻译系统在公开的汉语–英语翻译数据集上,达到了和人类一样的翻译水平。

  • 2019年,基于深度强化学习的麻将系统Suphx(超级凤凰)成为史上第一个达到10 段的麻将系统,并且在安定段位上,超过了顶级人类选手。

深度学习的成功依赖大量人工标注的数据。如表1.1所示,ResNet 用了百万量级的带有标签的图像训练分类器;AlphaGo(尽管AlphaGo Zero和AlphaZero没有利用专家走子数据进行训练,并且它们可以通过自我博弈学习,但是自我博弈仍然需要来自游戏规则的反馈信号, 而且这些通常也是现实中不可得到的)和Suphx用了千万量级的专家走子或出牌的数据进行模型训练;语音识别系统需要上千小时的语音数据进行训练;机器翻译系统需要千万量级的双语语句对进行训练。此外,深度学习系统被证明会受益于更多的数据。有文献表明,使用百亿量级数据训练得到的神经机器翻译系统优于千万量级语料训练得到的系统。类似的结论也在图像分类任务中被发现:用数十亿有类别标签的图像训练得到的图像分类器效果显著优于用百万量级数据训练得到的分类器。

9b5096d7d8bfab732630ff00a6277582.png
表 1.1 人工标记的训练数据的数量级。对于没有明确命名的系统,统一用 DNN(Deep Neural Network)表示

不幸的是,在现实任务中获取专家标注数据通常成本很高。更困难的是,在一些任务中,很难找到足够的专家进行数据标注。例如,对于两种非常冷门的语言的翻译任务,可能没有专家能同时理解两种语言。因此,尽管一些任务有足够的有标数据,但更多的任务比较难获得足够的有标数据进行训练。如图1.1所示,对于比较流行的语言之间的翻译,例如英语、德语、捷克语,存在千万量级的平行语料。相比之下,对于一些冷门语言(例如古吉拉特语)到英语的翻译,只有少于20万的双语语料。

因此,如何降低对大规模有标训练数据的需求,以及更好地利用有限的有标数据,是机器学习领域(尤其是深度学习领域)的一个热点研究方向。研究员们提出了多种不同的学习范式,包括多任务学习、迁移学习等。

由于数字化技术和互联网的快速发展,大量无标数据很容易以较低的成本获得。因此,在机器学习(尤其是深度学习)中,利用无标数据自然是降低对人工标注数据依赖的一个解决方案,并且是一个新的研究趋势。人们提出了很多利用无标数据的机器学习方案,对偶学习是其中一种代表性的方法。

1d36175d89f25180d73fdd3658656024.png
图 1.1 训练语料规模:WMT 2019提供的双语语句对的数目

02 人工智能任务中的结构对偶性

对偶学习是一种新的机器学习范式。它最初是为了利用无标数据而提出的,后来被延伸到多个研究方向。

定义 1.1
如果一个任务是从X空间到Y空间的映射,另一个任务是从Y空间到X空间的映射,那么这两个机器学习任务具有对偶形式。也可以说,这两个任务具有结构对偶性。

现实中,很多机器学习任务都具有对偶形式。例如:

  • 机器翻译:X语言(例如,汉语)到Y语言(例如,英语)的翻译任务和从Y语言到X语言的翻译任务具有对偶形式。

  • 语音处理:语音合成任务(文本转语音)和语音识别任务(语音转文本)具有对偶形式。

  • 图像到图像的翻译:将图像从X领域(例如,照片)翻译到Y领域(例如,油画)的任务将图像从Y领域翻译到X领域的任务具有对偶形式。

  • 问题回答和问题生成:对给定的问题生成对应答案的任务和从答案生成对应问题的任务具有对偶形式。

  • 搜索和广告关键字生成:搜索任务指给定一个索引或关键字返回相关的网页。广告关键字生成任务指给定广告(即网页)生成对应的关键字。这两个任务具备对偶性。

定义 1.2
如果两个任务具有对偶形式,我们把从X空间到Y空间的任务叫作原始任务或者正向任务,对应的模型叫作原始模型或者正向模型;把从Y空间到X空间的任务叫作对偶任务或者反向任务,对应的模型叫作对偶模型或者反向模型。

03 对偶学习的划分

尽管结构对偶性广泛存在于现实应用中,但直到近些年,它才被广泛而系统地探索和研究。

大体来说,对偶学习的基本思想是利用机器学习任务的对称结构(原始–对偶结构)获取有效的反馈或正则信号,用来加强学习或者推断过程。

对偶学习的研究可以按照不同准则进行分类。

1. 依照使用数据划分

根据训练模型使用的数据,对偶学习可以分成如下类别:

  • 对偶半监督学习:既利用有标数据又利用无标数据的对偶学习。

  • 对偶无监督学习:仅使用无标数据的对偶学习。

  • 对偶有监督学习:仅使用有标数据的对偶学习。

结构对偶性不仅可以应用到模型训练阶段,它同样可以应用到测试阶段,即对偶推断(dual inference)。

2. 依照对偶信号构造准则划分

根据具体应用场景,本书讨论若干种利用结构对偶性构造的准则。

  • 基于重构的准则。直观来说,给定 X 空间中的一个样本 x,在依次利用正向模型 f 和反向模型 g 之后,原始输入 x 应该能够被重建。这条准则既可以以确定性的方式实现:

4043f8d25f1a376c1da459ef018698f8.png

也可以按照概率的形式实现:

8768348e08fecaaaacdb6d09fd117432.png
  • 基于联合概率和边缘概率的准则。将随机变量 x ∈ Xy ∈ Y 的 联合分布和边缘分布记为 P(x, y)P(x)P(y)P(y|x; f) 表示利用正向模型fx 映射为 y 的条件概率。P(x|y; g) 代表利用反向模型 gy 映射为 x 的条件概率。直观上,我们有

a0103b6c5198a611449c13ddc3ceaf2c.png

03 研究和应用

对偶学习在多种任务中得到了广泛的研究,任务涵盖机器翻译、图像翻译、语音合成、问题回答和问题生成、代码摘要和代码生成、图像分类和生成、文本摘要以及情感分析等。

为了给出对偶学习研究的大致总结,我们将对偶学习的代表性研究根据准则、学习背景和应用进行划分,如图1.2所示。

5467793186b7c757612c319ffca532c1.jpeg
图1.2 对偶学习研究分类

尽管对偶学习已在多种机器学习环境下进行了研究,并且应用到了许多领域,对偶学习仍然有很多方向值得探索。

关于作者:秦涛,微软亚洲研究院首席研究员、深度学习和强化学习组负责人,IEEE、 ACM高级会员,中国科学技术大学客座教授,研究方向包括深度学习及其在自然语言、语音、图像处理和药物研发中的应用,强化学习及其在游戏AI和实际问题中的应用,博弈论与多智能体系统及其在云计算和在线广告中的应用,信息检索以及计算广告。

本文摘编自《对偶学习》,经出版方授权发布。

73f2eb195091cc8c8d76dac17fe26c97.jpeg

延伸阅读《对偶学习》

推荐语:微软亚洲研究院首席研究员、深度学习和强化学习组负责人撰写,全球首本系统介绍对偶学习理论、算法、应用的著作;详细描述对偶学习在机器翻译、图像翻译、语音处理等关键人工智能任务中的应用。

00df77cb77a0d6009f39bf725b099f35.jpeg

IT阅读排行榜,一个为755万程序员提供服务的信息平台,这里有IT前沿资讯,高质量科技大佬对话,更有十级严选IT好书!
出版社直播间,每周超低价5折放心买正版好书!


好了,本次送书3本。

加我好友,明天中午12点发朋友圈,点赞第9,81,180分别送一本。

fa81147f3797cdd4d372a64fab18c6bf.jpeg

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐