返回 登录
27

顶级计算机语言学大会COLING 2016,亮点迭出一一呈现

阅读4807

本文作者:AI100特约专家 汪诚愚,何晓丰
原文链接:顶级计算机语言学大会COLING 2016,主要有这几方面的亮点

计算语言学国际会议(International Conference on Computational Linguistics,COLING)是计算语言学领域的顶级国际会议,由国际计算语言学学会(International Committee on Computational Linguistics,ICCL)主办,从1965年开始,除少数情况外每两年召开一届。

第26届计算语言学国际会议(COLING 2016),由日本国立研究开发法人情报通信研究机构(National Institute of Information and Communications Technology,NICT)承办,于2016年12月11到16日在日本大阪召开。

本届会议吸引了世界各地超过1000人参加,为历届会议的最大规模。会议内容包括学术研讨会、学术热点教程、主旨演讲、论文口头报告、海报展示和系统演示等。这次会议共收到1127篇论文,其中录用口头报告论文135篇,录用率为12.0%,录用海报展示论文202篇,录用率为17.9%。其中,来自中国大陆研究人员的录用论文共有76篇,数量居于世界第一。

本文基于作者参会的亲身经历,总结此次大会中计算语言学的研究热点话题与前沿技术。

Keynotes:阐明计算语言学的发展方向

本次大会邀请了四位计算语言学领域著名学者发表主旨演讲。其中,瑞典乌普萨拉大学的Jockim Nivre教授在演讲中详细介绍了针对跨语言的普适依存关系理论(Universal Dependencies,UD)。依存关系解析是计算语言学中最基础的任务之一,利用计算机自动解析并分析句子语义,在智能问答等人工智能领域有广泛的应用。由于各种语言在语法和语义方面的表达形式各不相同,不同语言的依存关系解析的标准各异。UD通过设计一种规范对多种语言进行统一的标注,从而整合多语言依存关系的标注标准。目前,Nivre教授的UD研究成果已经在超过50种语言的语料库上得到应用,示例见图1。

图片描述

图1 普适依存解析示例

日本理化学研究所脑科学研究中心的Reiko Mazuka博士的主旨演讲内容涉及婴儿学习语言的机理研究的两个课题,揭示之前研究得出的错误结论。在第一个课题中,Mazuka博士对婴儿学习日语元音的长音和短音的不同反应,发现先前婴儿用一个简单的分布模型判别长短音的假设并不正确。第二个课题涉及一个最经典的假设:成人在对婴儿说话时,他们说话的语速比对其他成人说话时更慢。然而,Mazuka博士对大量相关数据集的研究发现,成人在对婴儿和对成人说话时语速几乎相同。成人对婴儿说话时看似比较慢,是因为成人对婴儿说话时更倾向于使用以元音结尾的句子,而在其他词汇语速上并无差别。这些研究改变了先前人们对语言学习机理的认知。

来自美国国家医学图书馆的Dina Demner-Fushman博士利用自然语言处理(Natural Language Processing,NLP)技术来辅助医学诊断和治疗。NLP是计算语言学、人工智能等学科的重要研究方向之一。Demner-Fushman博士的研究团队利用这些技术研发出诸多医学诊疗辅助系统。典型的应用包括InfoBOT(见图2),它采用NLP技术解析并理解病人的电子病历数据,包括诊断结果、病情描述等,自动挖掘病人的病症、使用的药物、病人的反应的等一系列医学事实,为进一步的诊疗和医学研究提供数据基础。美国国家医学图书馆同时也研发了一整套从自然语言中自动识别医学概念的工具MataMap 及其轻量版软件包MetaMapLite,它使用语句切分、词形归一化、词性标注、实体识别等NLP技术,完成对整个医疗文档的医学概念识别。

图片描述

图2 InfoBOT系统

此外,剑桥大学的Simone Teufel博士关注NLP技术中的论据自动生成(Computational Argumentation),即给定一个论点,计算机搜索支持或反对这一论点的证据,利用自然语言生成技术,自动生成一段对应的论据。Teufel博士认为,生成论据的过程与给海量文本进行自动摘要生成很相似,并且介绍了剑桥大学研究人员在摘要生成方面的研究工作,对论据自动生成的研究有启发。

学术论文揭示计算语言学的前沿技术

本次COLING会议录用的学术论文涉及到语法语义解析、文本分类、智能问答、机器翻译、语言生成、信息检索等多个方面,精彩纷呈。在这诸多研究问题中,深度学习相关技术继续扮演着举足轻重的作用。以下从COLING会议录用论文出发,介绍计算语言学最前沿的技术,特别是深度学习的理论研究进展及其应用。 在语言生成方面,一个具有高度挑战的问题是如何自动生成诗歌。百度研究团队发表了论文“Chinese Poetry Generation with Planning based Neural Network”。它采用两阶段诗歌生成方法,首先解析用户输入的内容,利用词汇联想方式生成每句诗歌的主题,其次,设计了变体的循环神经网络(Recurrent Neural Network,RNN)来生成每句诗的具体内容。该方法的整体框架如图3所示,它可以生成句尾押韵且主题与用户输入一致的五言或七言古诗。目前,这一技术已经应用在百度手机客户端“为你写诗”模块中。

图片描述

图3 诗歌生成框架

微软亚洲研究院的周明研究员团队与多个高校合作,发表论文“Detecting Context Dependent Messages in a Conversational Environment”,其目的是提升智能问答系统中人机对话的准确度。在人机对话中,自动挖掘提问的上下文是计算机理解问题的关键。在这一研究工作中,作者采用了时间递归神经网络Long Short Term Memory(LSTM)来预测一个问题是否依赖于上下文,例如回答“今天天气如何”不需要用户的上下文,而回答“你为什么这么认为”需要。在这一工作中,作者同时结合了LSTM学习用户问题在神经网络下的特征表示和传统神经网络进行预测,如图4所示。目前这一方法正在进一步部署,以运用到微软的聊天机器人中去。

图片描述

图4 LTSM模型预测框架

在机器翻译方向,计算语言学的研究热点不仅包括传统的句子级机器翻译,还包括对结构化知识的翻译,例如对知识库的翻译。哈尔滨工业大学秦兵教授的团队发表论文“English-Chinese Knowledge Base Translation with Neural Network”,旨在将英文知识库Freebase中的知识翻译成中文。由于语言具有高度的歧义性,直接利用现有机器翻译技术进行翻译误差较大。例如在图5中,英文知识库中Una White(人名)的职业为Nurse(护士),如果不给定其他上下文直接进行机器翻译,Una White可以翻译成尤纳•白色、尤纳•蛋白、尤纳•怀特等,Nurse可以翻译成护士或保姆。为了解决上述问题,在这篇论文中,作者提出了一个神经网络模型,首先分别将英文和中文词汇映射到不同的向量空间中,然后利用上述向量学习关系元组的向量表示。这一模型可以在语义层面解决跨语言的歧义性问题。上述研究工作是自动构建大规模知识库研究的重要进展,机器翻译出的高准确度知识具有潜在价值,例如对网络用户行为建模、理解用户查询并自动推荐等。

图片描述

图5 知识图谱的机器翻译示例

文本分类是NLP领域经典的研究问题,目的是将无结构的文本分为两个或多个指定的类别。例如在新闻媒体行业,采用NLP技术可以自动将新闻根据主题分为政治、娱乐、经济、军事等多个类别,从而实现了新闻从发布到整理归档的全自动操作,同时也有利于用户的快速检索。在本次会议上,来自百度的四位研究者提出了“Latent Topic Embedding”,即隐性主题嵌入技术。这一技术的目的是利用深度学习,将主题表示为低维密集的向量,从而对文档有更好的建模。通过对主题和文档更准确的建模,提升文档分类的准确度。在这一研究工作中,作者巧妙地结合了主题模型隐性狄利克雷分配和词嵌入模型,利用蒙特卡洛EM模型求解模型的参数。这一算法简洁高效,适用于部署于大规模商用系统中。

综上所述,在COLING 2016会议中,来自五湖四海的研究人员在计算语言学的各个研究方向都有创新性的突破,尤其是在深度学习方面。这些技术的进步不但推动了科学研究的发展,而且促进了产业界实际应用的研发,例如由百度和微软推出的多款智能应用产品。

系统演示展现计算语言学的实际应用

与研究论文偏重于算法和技术的创新型不同,系统演示更加侧重于将计算语言学相关系统部署于实际系统应用中。

台湾“中研院”研究团队着重于对语言含义的分析,从而实现机器的自动推理。在他们的工作“A Meaning-based English Math Word Problem Solver with Understanding, Reasoning and Explanation”中,综合利用了NLP和人工智能技术实现了数学应用题的自动解答,其流程和示例如图5所示。给定用自然语言描述的试题,系统先采用依存关系解析方法抽取对条件的结构化描述方法,然后采用逻辑推理的技术将试题转化为逻辑表达式,从而完成解答。

图片描述

图6 机器自动解题示例

在智能问答方面,计算语言学的应用往往与其应用领域密切结合。德国海德堡大学的Lawrence 和Riezler发布了NLmaps系统 ,如图6所示。这一系统和基于位置的服务结合,采用OpenStreetMap地理信息数据库。用户输入任何一个自然语言描述的查询,如“巴黎的三星级酒店有哪些”,系统识别用户输入的限定条件“巴黎”,查询目标“三星级酒店”等要素,并且转化成机器理解的查询语言,并使用OpenStreetMap查询结果并返回给用户。

除了利用专业的知识库进行智能问答,其他研究工作与信息检索技术相结合,从海量网络数据自动抽取用户所需的答案。卡塔尔HBKU大学ALT研究团队首先采用搜索引擎技术根据用户查询获取最相关的问答网页,抽取其内容,其次利用NLP技术计算用户查询与网页问答在语义上的相似度,给用户返回最相关的结果。目前这一系统已经成为卡塔尔知名论坛Qatar Living的一个模块(参见图8)。

图片描述

图7 NLmaps系统演示

图片描述

图8 Qatar Living论坛问答系统演示

由于运用很多NLP技术往往需要很强的专业背景知识,没有NLP基础的相关人士需要NLP方面的分析时会遇到比较大的技术瓶颈。Xerox欧洲中央研究院在论文“DISCO: A System Leveraging Semantic Search in Document Review”中介绍了DISCO系统。DISCO整合了语义搜索、文档分类、文档聚类、相似文档发现等一系列文档挖掘技术。它使用Tangible User Interface(TUI)作为用户界面,支持多点触控,使得用户不需要接触任何专业术语,通过手指在屏幕上点击就可以将文档聚类,分析文档的关键词等,从而能很容易地在海量文档中搜索所需要的信息。图9显示了用户使用该系统在文档中检索“Java”相关信息的界面。

图片描述

图9 DISCO系统演示

此外,COLING 2016会议还收录了其他各个研究方向的系统演示,如机器翻译、文档摘要等,以及会议赞助商研发的原型系统。例如在图10中,日本Nanasai公司展示了Samurai(武士)机器人,可以实现人机交互,吸引众多参会者驻足。

图片描述

图10 Samurai机器人

会议活动亮点迭出、精彩纷呈

除了学术报告和研讨会外,COLING会议还为参会者提供了精彩丰富的社交活动,为全世界各地的研究者提供轻松愉快的氛围探讨学术问题,交流研究心得。本次会议会场大阪国际会议中心为参会者提供了极具日本文化特色的参会条件,会场照片见图11。此外,为了使参会者在繁忙的学术报告之余充分感受日本的风土人情,组织了奈良半日会议旅行,参观日本世界文化遗产兴福寺和东大寺,会议旅行照片见图12。

图片描述

图11 会议现场照片

图片描述

图片描述

图12 会议旅行照片

作者的参会经历表明,COLING从会议规模、影响力和学术水平上说均不愧于世界计算语言学领域顶级会议的赞誉。此次COLING 2016会议,作为历史上规模最大的COLING 2016给来自世界各地的参会者无与伦比的体验,并且有力地推动计算语言学在大数据和人工智能时代的发展。

说明:除会议照片外,其他文中图片均出自相关作者论文。

评论