Python小哥哥

python通过pytesseract使用tesseract-o

2019-03-28  本文已影响1人  我爱学python

Python-tesseract是python的光学字符识别(OCR)工具。也就是说,它将识别并读取嵌入图像中的文本。

Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用,因为它可以读取Python Imaging Library支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等,而tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。

一、用法

快速开始

支持OpenCV image/NumPy数组对象

如果tessdata出现类似Error opening data file...的报错,请添加以下配置:

1、功能

get_tesseract_version: 返回系统中安装的Tesseract版本。

image_to_string: 将图像上的Tesseract OCR运行结果返回到字符串

image_to_boxes: 返回包含已识别字符及其框边界的结果,需要Tesseract 3.05+。有关更多信息,请查看Tesseract TSV文档

image_to_osd: 返回包含有关方向和脚本检测的信息的结果。

2、参数

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

image Object,由Tesseract处理的图像的PIL Image/NumPy数组

lang String,Tesseract语言代码字符串

config String,任何其他配置字符串,例如:config='--psm 6'

nice Integer,修改Tesseract运行的处理器优先级。Windows不支持。Nice调整了unix-like流程的优点。

output_type 类属性,指定输出的类型,默认为string。有关所有支持类型的完整列表,请检查pytesseract.Output类的定义。

二、安装

先决条件:

Python-tesseract需要python 2.7+或python 3.x.

您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian/Ubuntu下,是python-imaging或python3-imaging。

安装Google Tesseract OCR(有关如何在Linux,Mac OSX和Windows上安装引擎的其他信息)。你必须能够调用Tesseract命令为tesseract。如果不是这种情况,例如因为tesseract不在您的PATH中,则必须更改tesseract_cmd变量pytesseract.pytesseract.tesseract_cmd。在Debian/Ubuntu下,您可以使用包tesseract-ocr。对于Mac OS用户。请通过homebrew安装tesseract。

通过pip安装:

有关更多信息,请查看pytesseract页面

$ (env)> pip install pytesseract

或者如果你安装了git:

$ (env)> pip install -Ugit+https://github.com/madmaze/pytesseract.git

从源代码安装:


其它教程

如何加载中文数据集以及识别中文,首先前往github下载最新数据集tessdata为识别字体数据集。然后寻找到我们电脑中数据集地址:

将下载的中文数据集放在文件下直接使用即可

当然也可以自定义数据集位置:

上一篇 下一篇

猜你喜欢

热点阅读