返回 登录
0

诺亚面向语音语义的深度学习研究进展

本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲,介绍了华为诺亚面向语音语义的深度学习进展。

本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验室最近两年内和深度学习相关的研究成果,并探讨了深度学习的未来趋势。

深度学习的近十年进展

深度学习为什么现在这么火?大数据、算法突破和计算能力。算法上的突破有包括三点:第一点,对多层神经网络做预训练。第二点,大量标注数据驱动的监督学习和防过拟合技术的结合,例如dropout。第三点,注意力模型。

图片描述

从应用角度来看,自2012年来,深度学习在语音、图片、视频识别以及自然语言处理等方面取得重大突破等。

  • 语音识别:基于深度神经网络的声音模型替隐马尔可夫框架下的基于混合高斯分布的升学模型,使语音识别取得了突破性进展。目前完全融合了声学模型、语言模型和声学词典的基于深度学习的端到端的语音识别系统也开始出现,并有可能演进为下一代的语音识别系统。

  • 图像识别:2011年,基于深度卷积神经网络的图像识别系统在ImageNet数据集上取得极大成功,并开始有成功的商业化应用。

  • 自然语言处理:自2014年始,深度学习在语法分析、机器翻译、对话等领域都取得了一系列重要成果。

  • 符号人工智能:深度学习开始进入知识表达和推理等传统人工智能的领域,并取得了初步成功。

  • 控制/强化学习:深度学习和强化学习结合催生了深度强化学习技术,该技术在控制领域,如游戏操作和机器人的控制的端到端学习(end-to-end learning),都有了令人瞩目的成功。(揭秘深度强化学习

诺亚语音语义方面深度学习相关研究

华为诺亚方舟实验室在深度自然语言处理研究(deep learning for NLP)领域具有多年的积累。

图片描述

  • 深度语义匹配:对待匹配的两个目标对象的各个方面的匹配关系用深度神经网络进行建模。应用之一是基于自然语言的图片搜索:采用文本和图像深度匹配模型做手机上的图像搜索。

    图片描述

  • 自然语言对话:我们提出了第一个基于序列编码-解码算法的神经网络的对话模型。它能够理解你所说并产生合适的应答”。目前这一成果被业界广泛引用。(基于大数据与深度学习的自然语言对话)

  • 机器翻译:传统的基于统计的机器翻译,是从大量的平行语料库中学习大量的翻译规则,然后基于翻译规则来做翻译。它的翻译结果会比较忠实原文,但往往比较生硬。其特点可以用信而不达来概括。2014年基于基于编码-解码算法的端-到-端的翻译系统被提出来了。它先会把源语言句子做语义编码,相当于先理解原句,然后根据源端的语义编码再生成目标句子。为了生成更好的目标句子,它会引入一个“注意力模型”,这个注意力模型会建议生成下一个目标翻译词时主要考虑源句端的哪些词。我们最近做的一个有意思的工作是把“覆盖率模型”这个传统统计机器翻译中常用的技术叠加到了”注意力模型”上,使得在生成下一个目标翻译词的时候,把关注重点能更多的放到那些还没有充分翻译的源句端的词上,从而一定程度缓解过译和漏译问题。这一成果已经在今年国际计算语言学协会大会(ACL 2016)上发表了。(深度学习和自然语言处理中的attention和memory机制

  • 问答系统:我们的问答系统整体基于端到端的编码解码框架,但把知识库也融合进来了,是业界第一个基于深度学习的基于自然语言的问答系统。在生成答案的下一个目标词的时候,它会判断是否把注意力放到知识库,以及知识库中哪个条目,并从中选出答案作为下一个目标词。

  • 基于自然语言的推理:这一块相关研究我们刚刚起步,我们当前的方法也非常“朴素”。我们目前研究的聚焦在下面的场景:给定若干个事实,以及问题,输出答案。限定答案是某个分类标签,我们把这个任务转化为一个分类问题。

相关链接:深度学习的最新进展及诺亚方舟实验室的研究

深度学习的未来趋势

图片描述

深度学习还能有哪些突破?从解决实际问题的角度,我们从这三个方面去思考:

  1. 自然语言处理,人看起来简单自然的符号,能否与传统人工智能融合。
  2. 能否将举一反三的能力融入到深度学习中?
  3. 无监督学习是否能有所突破。

结合我们多年的研究和业界实践的经验,目前我们的关注点如下:

  • 更加灵活的表示方式。代表性的工作包括神经图灵机(Neural Turing Machine)、记忆网络(memory network)以及诺亚最近的Neural Transformation Machine和Neural Reasoner。

  • 更加复杂的端到端学习系统。不再拘泥于一个简单的模型,而是多个不同功能的神经网络耦合而成的系统,这个系统可以和现实世界完成对接和交互,能够接受延迟的和曲折的监督信号(和增强学习的结合),是“可微的”,或者至少是可以被优化的(譬如基于抽样的优化)。

    图片描述

  • 和传统人工智能的融合。试图去解决传统符号人工智能任务,推理、知识表达等,可以将符号人工智能的强大的逻辑能力和神经网络的灵活性结合。

    图片描述

  • 和知识库的结合。在对话等需要真实世界知识的场景,我们需要建立一个可以高效动态的访问知识库的神经网络系统。大量需要解决的问题:知识库的表示问题,访问的方式和效率问题,End-to-end 训练的问题,和神经网络内部的“知识”的融合问题。

    图片描述

  • 受教式人工智能:数据+知识驱动的深度学习。面向特定场景,接受教育,自我成长,个性化的系统。(华为研究的畅想: Educated AI (EAI)])

演讲PPT下载:

携程技术中心深度学习Meetup系列:

本文由携程技术中心(微信公号:ctriptech)童兰利整理,并经过演讲者本人确认和授权发布。
责编:周建丁(zhoujd@csdn.net)


CCAI 2016中国人工智能大会将于8月26-27日在京举行,AAAI主席,多位院士,MIT、微软、大疆、百度、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,7+重磅大主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。八折特惠门票截止8月12日24时

图片描述

评论