返回 登录
0

深度学习是未来机器翻译研究的技术热点

虽然机器翻译在过去的二十年中得到了前所未有的发展,但是仍然有许多问题值得探索,离真正实现机器翻译有很长的路要走,主要有以下三个方面的问题。

问题层面

机器翻译研究需要更加关注“机器翻译”自身的问题。机器翻译是一个交叉学科,它依赖计算机、数学、语言学等多个学科的融合。机器翻译的研究也往往会借鉴很多其他学科的研究成果,比如,统计机器翻译中使用的各种数学建模和模型学习方法大多是从机器学习中借鉴过来,再比如,现在机器翻译中经常使用的语言模型技术也基本上照办了语音识别中的相关技术。所以,寻找学科间的共性问题不仅能够大大加速机器翻译的研究进程,也在某种程度上为机器翻译提供了捷径。不过,从机器翻译的发展历史上来看,机器翻译的里程碑事件大多是与机器翻译本身特有问题研究的突破有关,比如,基于词汇、短语和句法的翻译模型、最小错误率训练等。这些经验告诉我们,只有解决机器翻译本身的核心问题,机器翻译才会迎来新的机遇。从实践的角度,研究者们也发现了类似的现象:很多在其他学科中十分有效的方法在机器翻译中并不好用,比如,在自动分类等任务中经常使用感知机等方法来训练判别模型,但是机器翻译的感知机训练效果一直未得到认可,直到最近研究者考虑翻译解码中特有的搜索问题后,该训练方法在机器翻译中才有了真正的用武之地。当然,探讨所谓学科间的共性问题和特性问题可能属于哲学范畴,但是历史告诉我们,只有考虑机器翻译自身的问题(比如机器翻译语言学建模)才是机器翻译发展的根本,未来也应该是这样。特别是近5年来,机器翻译研究已经进入一个新的平台期,对机器学习等方法的使用受到了很大关注,而机器翻译原创性研究的比例并不高,这也对今后机器翻译自身问题的研究提出了更强烈的需求。机器翻译不能仅寄希望于一两种机器学习方法,要想取得大的发展必须自身有所突破。

方法层面 

机器翻译需要进一步深入融合语义等语言学信息和机器学习方法。机器翻译已经从简单的基于连续词串的翻译模型迈进了句法翻译模型时代,下一阶段的研究呼唤语言学信息的进一步使用。比如,如何使用(句子级)语义信息已经受到关注,但是基于语义的机器翻译的突破还须多项基础研究的支持,比如句子的语义表示、生成、双语/多语间的语义结构对齐、推理等等。相信这些问题的研究会成为机器翻译今后的重要组成部分。再有,句子上下文等篇章信息也应该成为机器翻译的突破点之一,虽然现在已经有一些相关研究,但是还缺乏统一的框架和系统。从机器翻译数学方法角度看,机器学习特别是深度学习仍会是未来机器翻译研究中的技术热点,比如使用基于神经元网络的深度学习技术来获得更高元的语言模型或翻译模型将是有趣且实用的研究课题。这里面还需要注意的是最近受到广泛关注的word embedding(词汇层面的嵌入式语义表达)技术,把每个单词表示为一个向量,而词汇的语义就蕴含在这个向量表示中。这个方法可以帮助机器翻译使用更多“潜在”的语义信息。但是这些向量并没有太多的语言学解释,如何与基于语言学驱动的翻译模型更好地融合还需要深入的探讨。

应用层面 

机器翻译需要更加清晰的应用模式,使其更“接地气”。为此,我们要寻找产业爆发点。机器翻译技术方法的研究和机器翻译产业化应用是两个不同的维度,现在的模式是二者各司其职,互不“干扰”:高校和科研院所专注于机器翻译技术本身,以论文和科研项目为主要出口;而有翻译需求的企业更多的是使用已经成熟的辅助翻译软件,并不关心机器翻译技术。虽然随着各个互联网巨头对机器翻译的热情不断增高,机器翻译已经可以作为公共服务被大家所使用,但是不得不说机器翻译的研究和产业化仍然相对独立。这也就形成了一个奇怪的现象:机器翻译学者不愿意过多地思考如何将技术“应用出去”,而有需求的企业也没有去思考“用什么”机器翻译技术能解决自身的问题。笔者就曾不止一次遇到过类似的状况,很多有翻译需求的企业仍然不了解甚至未听说机器翻译,而机器翻译技术研发人员也不愿意与之过多交流。更有甚者,职业译员和机器翻译研究人员互相排斥,引发论战。实际上从整个机器翻译产业的发展来看,这种不了解、不认同的情况从某种程度上讲也是由我们自身造成的。机器翻译究竟如何在企业和人们生活中发挥更大的作用是大家所应该共同探讨的问题。如何使用我们所研发的技术方法,与研发这些技术方法本身同样重要,而这些我们还没有很好的思考。从世界范围看,已有很多研究机构开始将机器翻译进行产业化,比如,美国南加州大学信息科学院(Information Sciences Institute, ISI)的部分学者就成立了Language Weaver公司,以便在进行机器翻译技术研发的同时寻找这些技术的出路。

原文链接:​机器翻译,让语言交流无障碍

评论