机器翻译的一些个人研究记录
机器翻译的发展基于规则的机器翻译(70年代)基于统计的机器翻译(1990年)基于神经网络的机器翻译(2014年)Google NMT 机器翻译框架lstm+attention的机制实现transformer机器翻译框架分词技术--自然语言处理机翻引擎训练和使用的前提,分词是一切的关键,也是搜索引擎的核心英文分词词干提取(St...
机器翻译的发展
基于规则的机器翻译(70年代)
基于统计的机器翻译(1990年)
基于神经网络的机器翻译(2014年)
Google NMT 机器翻译框架
transformer机器翻译框架
lstm+attention的机制实现
分词技术--自然语言处理
机翻引擎训练和使用的前提,分词是一切的关键,也是搜索引擎的核心
英文分词
词干提取(Stemming)
Porter stemmer
Lovins stemmer
Lancaster Stemming
Snowball Stemming
词形还原(Lemmatisation)
NLTK Tokenize
ElasticSearch
SpaCy
StanfordCoreNLP
SnowBall SDL
...
中文分词
- 基于词典的方法
- 正向最大匹配思想MM
- 逆向最大匹配算法RMM
- 双向最大匹配法(Bi-directction Matching method,BM)
- 设立切分标志法
- 最佳匹配(OM,分正向和逆向)
- 基于统计的分词(无字典分词)
- N-gram模型思想
- 隐马尔科夫模型思想
- 基于规则的分词(基于语义)
- 基于字标注的中文分词方法
中文分词的难点
- 歧义问题
- 未登录词识别
目前情况
1.传统分词组件,基于统计类算法
2.基于深度学习算法
3.云计算厂商API
- HanLP : Han Language Processing
- 语言技术平台(Language Technology Platform,LTP)
- 汉语分词系统ICTCLAS (NLPIR)
- thulac (THU Lexical Analyzer for Chinese)一个高效的中文词法分析工具包
- SnowNLP
- Jieba 结巴
- 盘古
- IKAnalyzer Java
- CWSharp Go
...
日语分词
日语的处理有很多难点,例如:
- 日语的结构“主宾谓”以及无限句末加句的特点,因此只有到一个句子的最有一个字才能确定句子整体意义。
- 暧昧语,日语的另一个大特定就是暧昧。日本人喜爱委婉表达,尤其是语言上的委婉表达。因为它可以回避问题的实质,矛盾的冲突。
日语中「です。」是断定词,在断定句尾表示肯定整个句子。
[でしょう]本来是建议劝诱词尾,这里就是公认的90%的肯定了。
- 日语词汇并没有中文词汇丰富,一个日语词有很多的中文意思。
- 敬语,日语中有相当复杂的敬语体系,一个句子以不同的形式表达各种审度的尊敬。
目前来看日语的机器翻译比较落后,基本都是国外在研发,本土还是以词典为主
例如:http://www.nihongo-app.com/
优化和矫正
目前的趋势是结合机器翻译和术语实现更准确的翻译,尽管机器翻译技术快速提供了译文但是其中的术语使用并不能达到需求,从技术上有必要跟进,目前业内有两个方案:
方案1,自有机器引擎的前提下通过训练,将术语和含有术语的语料用来训练机器翻译
方案2,如果没有机器翻译引擎,通过技术手段,比如使用引擎前的术语隔离,使用引擎后的术语替换,基于规则的合理检查和修正等
速度优化
SDL Trados的设计是每个Segment进行一次MT查询。每一次查询都要进行HttpRequest和HttpRespond,因此是包含发送(编码),机器执行,返回(解码)至少三个步骤。如果一个文章含有1000个segment那么就需要至少1000次MT查询,花费的时间比较多,速度较慢。以Google为例,MT接受的request长度是5000字,但是按照SDL的定义每次其实仅仅使用了5000字限度的一小部分。假设每10个segment组合在一起,为了到达不超过5000字,这样每个segemnt不超过 500字,这样的话仅需要发送100次MT查询,节约了900次MT查询,无论是从成本上,还是从速度上都会有较大的提高。
更多推荐
所有评论(0)