1:首先要具备对应的python环境,其他语言如java也是ok的 ,官网有对应的API

2:提前准备好你的文件。

3:中间有个sleep的处理,是为了避免总是频繁调取接口导致问题,毕竟是免费的嘛,都能理解

4:最关键的一点,自己得申请一个账号,然后拿到access_token,这个是你调用服务的凭证

都给你准备好了直接看这个:

https://blog.csdn.net/weixin_36630761/article/details/108253355

import os
import base64
import requests
import json
import  time

def get_ocr(fileName):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic"
    # 二进制方式打开图片文件
    f = open(fileName, 'rb')
    img = base64.b64encode(f.read())
    params = {"image": img}
    access_token = '这个是你自己需要去申请的access_token'
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    response = requests.post(request_url, data=params, headers=headers)
    if response:
        # print (response.json())
        dt = response.json()
        json_str = json.dumps(dt)
        data = json.loads(json_str)
        list_json = (data['words_result'])
        for jd in list_json:
            print(jd['words'])
            writeData2Text("C:\\Users\\Desktop\\dev\\koubei1.txt",jd['words'])


def writeData2Text(targetFile,datas):
    with open(targetFile, mode='a') as filename:
        filename.write(datas)
        filename.write('\n')  # 换行



path = 'C:\\Users\\Desktop\\dev\\koubeijietu' #待读取文件的文件夹绝对地址
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic"
files = os.listdir(path) #获得文件夹中所有文件的名称列表
# list0 = [] #存放path路径中的文件内容
# list1 = [] #存放path中子文件夹的文件内容
for file in files:
    time.sleep(2)
    if not os.path.isdir(file): #判断是否是文件夹
        file_name = path+"\\"+file
        get_ocr(file_name)
    else:
        print("是文件夹")

if __name__ == "__main__":
    print("main method")

结果展示:

准确率还是很高的 这是个我解析的汽车之家的口碑的数据。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐