鲸鱼技术

Python:pytesseract, faker库

2019-08-04  本文已影响0人  喷雾式鲸鱼

2019.8.4

OS: Windows8.1专业版

  1. 安装tesserocr, pytesseract库
    • Tesseract是一个开源的ocr引擎,可以开箱即用,项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。
    • pytesseract是对tesseract做的一层Python API封装,是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。
    • tesseract OCR由C/C++编写,github地址
    • pip install tesserocr报错,通过tesserocr whl文件下载whl文件安装,cd到下载目录pip install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl,这个版本支持tesseract v4.0.0。也可以尝试用conda安装。
    • 通过https://digi.bib.uni-mannheim.de/tesseract/,这里可以下载到旧版本。下载tesseract-ocr-w64-setup-v4.0.0.20181030.exe安装。
    • 将tessertocr目录和子目录tessdata添加进环境变量。命令行输入tesserart显示信息。
    • tesserocr库识别准确率不高,改用pip install pytesseract安装pytesseract,uni-mannheim下载tesseract-ocr-w64-setup-v5.0.0.20190623.exe安装。方便,准确率高,支持最新版本的tesseract-ocr。
    • tesserocr不好用,pytesseract更好。
  2. python faker库
    • 安装pip install faker,调用
    from faker import Faker
    f = Faker(locale='zh')  # 输入zh与zh_CN等效,zh_TW为台湾地区
    f.name()  # 随机姓名
    f.address()  # 随机省市路座邮编搭配
    
上一篇下一篇

猜你喜欢

热点阅读