python 图片识别_利用Python来识别并提取图片中文字

weixin_39832875

2889人浏览 · 2020-11-23 06:12:49

weixin_39832875 · 2020-11-23 06:12:49 发布

No.1

什么是文字识别

文字识别是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。

No.2

运用领域

文字识别可应用于许多领域，如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理，以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。以及文档检索，各类证件识别，方便用户快速录入信息，提高各行各业的工作效率。

No.3

我国文字识别现状

随着我国信息化建设的全面开展，OCR文字识别技术诞生20余年来，经历从实验室技术到产品的转变，已经进入行业应用开发的成熟阶段。相比发达国家的广泛应用情况，OCR文字识别技术在国内各行各业的应用还有着广阔的空间。随着国家信息化建设进入内容建设阶段，为OCR文字识别技术开创了一个全新的行业应用局面。文通，云脉技术、汉王等中国文字识别的领军企业将会更加深入到信息化建设的各个领域。

No.4

Python中的文字识别

在文字识别中，许多应用软件可以帮我们忙，那么强大的python可以实现图片中的文字识别吗？

在学习python的图像识别中，我们了解到关于中文的识别，效果比较好而且开源的应该就是Tesseract-OCR了，python里面也有一个包去使用Tesseract-OCR，这个包叫pytesseract。但是在学习过程中，我发现利用百度 AI 开发平台的 OCR 文字识别 API 也可以识别并提取图片中的文字。

首先，我们需要一个百度账号，然后打开百度AI开放平台(https://ai.baidu.com/)并登陆，点击“控制台”，进入左边栏中的“文字识别”，创建一个应用，并记住你的AppID，API Key和Secret Key。

然后，我们在cmd窗口，安装百度ai接口的库。

pip install baidu—aip

好了，到这里基本工作已经做完。接下来是文本识别并且提取的核心部分：

def baiduOCR(picfile, outfile):    #想要利用百度api识别文本，我们需要设置：    #1、图片文件名为：picfile    #2、输出文件为：outfile    filename = path.basename(picfile)    #接下来，我们需要将刚刚获取的ID、KEY和SECRECT KEY填入    APP_ID = '****' # 刚才获取的 ID，下同    API_KEY = '****'    SECRECT_KEY = '****'    client = AipOcr(APP_ID, API_KEY, SECRECT_KEY)    #接下来，打开并识别图片信息    i = open(picfile, 'rb')    img = i.read()    print("正在识别图片：\t" + filename)    #在这里，我们有两种识别方法：通用识别、高精度识别message = client.basicGeneral(img)#通用文字识别，每天50000次免费#message =client.basicAccurate(img)#通用文字高精度识别，每天800次免费    print("识别成功！")    i.close();

以上即为利用百度api文字识别并提取中的识别部分，接下来只需要将提取文字提取出来即可。

想要将识别的文字提取出来，我们需要做以下设置：

with open(outfile, 'a+') as fo:        fo.writelines("+" * 60 + '\n')        fo.writelines("识别图片：\t" + filename + "\n" * 2)        fo.writelines("文本内容：\n")        # 输出文本内容        for text in message.get('words_result'):            fo.writelines(text.get('words') + '\n')        fo.writelines('\n'*2)    print("文本导出成功！")    print()

现在我们导入一张手机拍摄的图片：

识别结果：

从结果可以看出，识别精读非常高，效果非常好。

详细步骤请参考代码及注释：

import globfrom os import pathimport osfrom aip import AipOcrfrom PIL import Imagedef convertimg(picfile, outdir):    '''调整图片大小，对于过大的图片进行压缩    picfile:    图片路径    outdir：图片输出路径    '''    img = Image.open(picfile)    width, height = img.size    while(width*height > 4000000):  # 该数值压缩后的图片大约两百多k        width = width // 2        height = height // 2    new_img=img.resize((width, height),Image.BILINEAR)    new_img.save(path.join(outdir,os.path.basename(picfile)))def baiduOCR(picfile, outfile):    #想要利用百度api识别文本，我们需要设置：    #1、图片文件名为：picfile    #2、输出文件为：outfile    filename = path.basename(picfile)    #接下来，我们需要将刚刚获取的ID、KEY和SECRECT KEY填入    APP_ID = '****' # 刚才获取的 ID，下同    API_KEY = '****'    SECRECT_KEY = '****'    client = AipOcr(APP_ID, API_KEY, SECRECT_KEY)    #接下来，打开并识别图片信息    i = open(picfile, 'rb')   img = i.read()    print("正在识别图片：\t" + filename)    #在这里，我们有两种识别方法：通用识别、高精度识别    message = client.basicGeneral(img)   # 通用文字识别，每天 50 000 次免费    #message = client.basicAccurate(img)   # 通用文字高精度识别，每天 800 次免费    print("识别成功！")    i.close();    #以上即为识别过程    #想要将识别的文字提取出来，我们需要做以下设置：    with open(outfile, 'a+') as fo:        fo.writelines("+" * 60 + '\n')        fo.writelines("识别图片：\t" + filename + "\n" * 2)        fo.writelines("文本内容：\n")        # 输出文本内容        for text in message.get('words_result'):            fo.writelines(text.get('words') + '\n')        fo.writelines('\n'*2)    print("文本导出成功！")    print()if __name__ == "__main__":    outfile = 'export.txt'    outdir = 'tmp'    if path.exists(outfile):        os.remove(outfile)    if not path.exists(outdir):        os.mkdir(outdir)    print("压缩过大的图片...")#首先对过大的图片进行压缩，以提高识别速度，将压缩的图片保存与临时文件夹中    for picfile in glob.glob("picture/*"):        convertimg(picfile, outdir)    print("图片识别...")    for picfile in glob.glob("tmp/*"):        baiduOCR(picfile, outfile)        os.remove(picfile)    print('图片文本提取结束！文本输出结果位于 %s 文件中。' % outfile)    os.removedirs(outdir)