机器学习应用--计算机视觉相关介绍
应用-计算机视觉前面我们了解了机器学习的常见应用之一,推荐系统。现在我们再来看一下另一个常见应用,计算机视觉。我们最为常见的一个功能,图片文字识别,语音转文字,不管是qq还是微信,都有这样的功能。它是如何实现的呢?图像识别首先提取出包含文字的图片。将文字切开。识别文字。滑动窗口如何从一张照片中识别出那部分属于文字。我们可以使用一种叫做滑动窗口的算法按照文字一般比例,使用等比例文字图片和等比例其他图
应用-计算机视觉
前面我们了解了机器学习的常见应用之一,推荐系统。
现在我们再来看一下另一个常见应用,计算机视觉。
我们最为常见的一个功能,图片文字识别,语音转文字,不管是qq还是微信,都有这样的功能。
它是如何实现的呢?
图像识别
- 首先提取出包含文字的图片。
- 将文字切开。
- 识别文字。
滑动窗口
如何从一张照片中识别出那部分属于文字。
我们可以使用一种叫做滑动窗口的算法
-
按照文字一般比例,使用等比例文字图片和等比例其他图片进行监督训练。
-
按照等比例,对要识别的图片进行扫描,每确定一个位置,就输入到训练模型中比较,确定文字概率。
-
将高概率的文字区域提取出来。进入下一步文字切分。
文字切分
同样使用监督学习
按照文字分段进行训练
将传入的文字区域放入模型中将文字切开。
文字提取
将提取出来文字图片放入文字拟合的训练模型中。即可提取出要识别的图像文字。
数据集的制造
一个好的学习结果,其学习数据集的数量是不能少的。
如何获得更多的数据集。
- 背景和文字颜色改变。
- 划块后扭曲。
- 加入噪声。
执行上界分析
一个项目中,会有很多个步骤。
例如上面的文字提取,文字图片切割,文字间的切割,文字的识别。
分清楚那一块的提高会对整体的识别准确度有所提高,就可以用更多的精力来做更有用的事情。
我们采取人工手动完成算法的功能来确保准备度。
以文字提取为例
步骤 | 准确率 | 提升幅度 |
---|---|---|
初始系统 | 72% | |
手动截出文字所在图片 | 89% | 17% |
手动对文字进行切分 | 90% | 1% |
手动对文字进行识别 | 100% | 10% |
可以看出,能够获得更加准确的文字图片,会使算法的准确度提升最大。因此我们应将注意力放在识别文字所在图片这个步骤上,而不是对着文字切分这个地方浪费过多注意力和时间,因为它的提升是有限的。
上界分析可以让我们将时间分配在更有效的地方,因此执行上界分析也是之后优化算法的一个必要的步骤。
参考资料
B站吴恩达机器学习相关课程:https://www.bilibili.com/video/BV164411b7dx
更多推荐
所有评论(0)