Python:pytesseract, faker库
2019-08-04 本文已影响0人
喷雾式鲸鱼
2019.8.4
OS: Windows8.1专业版
- 安装tesserocr, pytesseract库
- Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。
- pytesseract是对tesseract做的一层Python API封装,是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。
- tesseract OCR由C/C++编写,github地址。
-
pip install tesserocr
报错,通过tesserocr whl文件下载whl文件安装,cd到下载目录pip install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
,这个版本支持tesseract v4.0.0。也可以尝试用conda
安装。 - 通过https://digi.bib.uni-mannheim.de/tesseract/,这里可以下载到旧版本。下载
tesseract-ocr-w64-setup-v4.0.0.20181030.exe
安装。 - 将tessertocr目录和子目录tessdata添加进环境变量。命令行输入
tesserart
显示信息。 - tesserocr库识别准确率不高,改用
pip install pytesseract
安装pytesseract,uni-mannheim下载tesseract-ocr-w64-setup-v5.0.0.20190623.exe
安装。方便,准确率高,支持最新版本的tesseract-ocr。 - tesserocr不好用,pytesseract更好。
- python faker库
- 安装
pip install faker
,调用
from faker import Faker f = Faker(locale='zh') # 输入zh与zh_CN等效,zh_TW为台湾地区 f.name() # 随机姓名 f.address() # 随机省市路座邮编搭配
- 安装