图片识别
2018-02-09 本文已影响0人
tkpy
# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
# pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
# image = Image.open("C:/Program Files (x86)/Tesseract-OCR/doc/phototest.tif")
image = Image.open("oo.png") #路径
tessdata_dir_config = '--tessdata-dir "C:/Program Files (x86)/Tesseract-OCR/tessdata"' #在.py文件配置中指定tessdata-dir
text=pytesseract.image_to_string(image,config=tessdata_dir_config)
print(text)
出现问题解决原因:
1.将# pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'的注释去掉
- 下载Tesseract-OCR安装包,记录好路径,将路径粘贴进去。
3.下载中文简体字识别包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata
放在Tesseract-OCR/tessdata/的文件夹下面。
繁体字识别包:https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata