返回 登录
1

自然语言处理深度学习的7个应用

原文:7 Applications of Deep Learning for Natural Language Processing
作者:Jason Brownlee
翻译:无阻我飞扬

摘要:在这篇文章中,作者详细介绍了自然语言处理深度学习的7种应用,以下是译文。

自然语言处理领域正在从统计方法转变为神经网络方法。

自然语言中仍有许多具有挑战性的问题需要解决。然而,深度学习方法在一些特定的语言问题上取得了最新的成果。这不仅仅是深度学习模型在基准问题上的表现,基准问题也是最有趣的;事实上,一个单一的模型可以学习词义和执行语言任务,从而消除了对专业手工制作方法渠道的需要。

在这篇文章中,你会发现7个有趣的自然语言处理任务,也会了解深度学习方法取得的一些进展。

1、 文本分类

2、 语言建模

3、 语音识别

4、 字幕生成

5、 机器翻译

6、 文档摘要

7、 问答(Q&A)

我试图专注于你可能感兴趣的各种类型的终端用户问题,而不是更多的学术或语言的子问题,在有些方面深度学习已经做的很好,如词性标注,程序分块,命名实体识别,等等。

每个示例提供了一个问题描述,示例,对演示方法和结果的文档引用。大多数参考来自2015年的Goldberg’s 的优秀的NLP研究人员深度学习入门文献

你有没有一个深度学习中最受欢迎的NLP应用没有被列出?请在下面的评论中告诉我。

1、 文本分类

给出一个文本实例,预测一个预定义的类标签。

文本分类的目的是对文档的标题或主题进行分类。

—575页,自然语言处理的基础统计,1999

一个流行的分类示例是情感分析,类标签代表源文本的情感基调,比如“积极的”或“消极的”。

下面是另外三个例子:

  • 垃圾邮件过滤,将电子邮件文本分类为垃圾邮件或正常邮件。
  • 语言识别,对源文本的语言进行分类。
  • 体裁分类,对小说故事体裁进行分类。

此外,这个问题可以用某种方式加以解决,将多个类分配给一个文本,即所谓的多标签分类。如给一个源tweet预测多个#标签。

更多相关主题的内容,请参见:

下面是3个文本分类深度学习的论文例子:

2、 语言建模

语言建模真的是更有趣的自然语言问题的一个子任务,特别是那些在其它输入条件下的语言模型。

…问题是根据给出的前一个词来预测下一个词。这项任务是语音或光学字符识别的基础,也用于拼写矫正,手写识别和统计机器翻译。

—191页,统计自然语言处理基础,1999.

除了对语言建模的学术兴趣外,它也是许多自然语言处理体系结构深度学习的一个重要组成部分。

一个语言模型学习词与词之间的概率关系,这样以来,新的词的序列可以生成与源文本统计学上一致的文本内容。

单独地,语言模型可用于文本或语音生成;例如:

  • 生成新的文章标题。
  • 生成新的句子,段落,或文件。
  • 生成一个句子的建议延续的句子。

有关语言建模的更多信息,请参见:

下面是深度学习语言建模(仅有)的一个例子:

3、 语音识别

语音识别是理解说了什么的问题。

…语音识别的任务是将包含自然语言话语的语音映射成说话人想要表达的对应的词。(传统的语音识别模型是通过人工建立一张语音词表,将相似发音的字母划分为一类;并借助一个分类模型实现语音到字母的转译。)

—458页,深度学习,2016.

给定作为音频数据的文本的发声,该模型必须生成可读的文本。

自动给出自然语言的处理,这个问题也可被称为自动语音识别(ASR).

语言模型用于创建以音频数据为条件的文本输出。

包含的一些例子:

  • 录制语音。
  • 为电影或电视节目创建文本字幕。
  • 开车的时候向无线电发出指令。

有关语音识别的更多信息,请参见:

以下是用于语音识别深度学习的3个例子:

4、字幕生成

字幕生成是描述图像内容的问题。

给定一个数字图像,如一张图片,生成关于这个图像内容的文本描述。

语言模型用于创建符合图像内容的字幕。

包含的一些例子:

  • 描述一个场景的内容。
  • 为照片创建标题。
  • 描述一个视频。

这不仅仅是对听障者的一个应用程序,还可以为图像和视频数据生成可读的文本,将来可以搜索,比如在网上。

以下是字幕生成深度学习的3个例子:

5、机器翻译

机器翻译是把源文本从一种语言转换成另外一种语言的问题。

…机器翻译,文本或语音从一种语言到另外一种语言的自动翻译,它是NLP最重要的应用。

—463页,统计自然语言处理基础,1999.

考虑到深度神经网络的使用,该领域被称为神经机器翻译。

在一个机器翻译任务中,输入由一些语言中的一系列符号组成,计算机程序必须把它转换成另一种语言中的符号序列。这通常用于自然语言,比如从英语到法语的翻译。深度学习最近开始对这种任务产生重要影响。

—98页,深度学习,2016.

语言模型用于输出翻译以后语言的目标文本,以源文本为基础。

包含的一些例子:

  • 将一个文本文件从法语翻译成英语。
  • 将西班牙音频翻译成德语文本。
  • 将英语文本翻译成意大利音频。

更多关于神经机器翻译,请参见:

下面是机器翻译深度学习的3个例子:

6、文档摘要

文档摘要是对创建的文本文档进行简短描述的任务。

如上所述,语言模型用于基于完整文档的摘要输出。

一些文档摘要的例子:

  • 为一篇文档创建一个标题。
  • 为一篇文档创建一个摘要。

更多关于这个话题的信息,请参见:

下面是文档摘要深度学习的3个例子:

7、 问答

回答问题就是给定一个主题,如文本文件,回答关于这个主题的一个特定问题。

…问答系统尝试回答用户以问题形式表述的疑问,它返回适当的短语,如位置,人员,或者日期。例如,问题是总统肯尼迪为什么被刺杀?可能回答的短语是:Oswald(“凶手”奥司华德)。

—377页,统计自然语言处理基础,1999

包含的一些例子:

更多关于问答的信息,请参见:

  • 关于维基百科文章的问答

  • 关于新闻文章的问答

  • 关于医疗记录的问答

下面是问答深度学习的3个例子:

扩展阅读

如果你需要更深入的了解,本节提供更多用于NLP深度学习应用程序的资源。

2017年10月14日,SDCC 2017之大数据技术实战线上峰会即将召开,邀请圈内顶尖的布道师、技术专家和技术引领者,共话大数据平台构建、优化提升大数据平台的各项性能、Spark部署实践、企业流平台实践、以及实现应用大数据支持业务创新发展等核心话题,七位大牛与你相聚狂欢,详情查看所有嘉宾和议题,以及注册参会

评论