应用-计算机视觉

前面我们了解了机器学习的常见应用之一,推荐系统。

现在我们再来看一下另一个常见应用,计算机视觉。

我们最为常见的一个功能,图片文字识别,语音转文字,不管是qq还是微信,都有这样的功能。

它是如何实现的呢?

图像识别

  1. 首先提取出包含文字的图片。
  2. 将文字切开。
  3. 识别文字。

在这里插入图片描述

滑动窗口

如何从一张照片中识别出那部分属于文字。

我们可以使用一种叫做滑动窗口的算法

  1. 按照文字一般比例,使用等比例文字图片和等比例其他图片进行监督训练。在这里插入图片描述

  2. 按照等比例,对要识别的图片进行扫描,每确定一个位置,就输入到训练模型中比较,确定文字概率。

  3. 将高概率的文字区域提取出来。进入下一步文字切分。

文字切分

同样使用监督学习

按照文字分段进行训练

在这里插入图片描述

将传入的文字区域放入模型中将文字切开。

文字提取

将提取出来文字图片放入文字拟合的训练模型中。即可提取出要识别的图像文字。

数据集的制造

一个好的学习结果,其学习数据集的数量是不能少的。

如何获得更多的数据集。

  • 背景和文字颜色改变。
  • 划块后扭曲。
  • 加入噪声。

执行上界分析

一个项目中,会有很多个步骤。

例如上面的文字提取,文字图片切割,文字间的切割,文字的识别。

分清楚那一块的提高会对整体的识别准确度有所提高,就可以用更多的精力来做更有用的事情。

我们采取人工手动完成算法的功能来确保准备度。

以文字提取为例

步骤准确率提升幅度
初始系统72%
手动截出文字所在图片89%17%
手动对文字进行切分90%1%
手动对文字进行识别100%10%

可以看出,能够获得更加准确的文字图片,会使算法的准确度提升最大。因此我们应将注意力放在识别文字所在图片这个步骤上,而不是对着文字切分这个地方浪费过多注意力和时间,因为它的提升是有限的。

上界分析可以让我们将时间分配在更有效的地方,因此执行上界分析也是之后优化算法的一个必要的步骤。

参考资料

B站吴恩达机器学习相关课程:https://www.bilibili.com/video/BV164411b7dx

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐