返回 登录
0

Google实时文字翻译背后的技术

Google翻译最新增加的特性是字镜头(Word Lens),手机对着实际物体就可以实时翻译其中的文字。这个听着不那么新鲜,人工智能时代,这种演示好像已经很多了。但Google这次的绝技体现在:这种实时翻译是深度学习支持的,而且不联网的时候也可以工作,计算完全在手机上进行。这又是怎么做到的呢?

Google研究院的博客专门发表了一篇文章(要翻墙)介绍其中原理,这不是一篇学术论文,所以没有真正的技术细节,只能了解思路:

  • 首先,通过连续的色素块从背景中挖出文字。
  • 然后,用深度学习里的卷积神经网络识别这些文字。训练的时候,用了生成的数据集,模仿真实世界里有阴影、扭曲等的文字。之所以不用实际数据,是因为很难找到各种文字足够的样本。
  • 之后是查字典,匹配会允许一定的模糊性,比如将super认成5uper也能出结果。
  • 将结果用原文相同的字体和颜色显示。

为了在手机上也能工作,神经网络必须足够小,信息密度设定上限。因此挑战就是如何生成最高效的训练数据。其中优化和反复调试的工作量很大。此外对数学操作也要手工重度调优,使用手机处理器的SIMD指令,优化矩阵乘法可以适合各级缓存等等。

评论