python通过pytesseract使用tesseract-o

2019-03-28 本文已影响1人我爱学python

Python-tesseract是python的光学字符识别（OCR）工具。也就是说，它将识别并读取嵌入图像中的文本。

Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用，因为它可以读取Python Imaging Library支持的所有图像类型，包括jpeg，png，gif，bmp，tiff等，而tesseract-ocr默认只支持tiff和bmp。此外，如果用作脚本，Python-tesseract将打印已识别的文本，而不是将其写入文件。

一、用法

快速开始

支持OpenCV image/NumPy数组对象

如果tessdata出现类似Error opening data file...的报错，请添加以下配置：

1、功能

get_tesseract_version: 返回系统中安装的Tesseract版本。

image_to_string: 将图像上的Tesseract OCR运行结果返回到字符串

image_to_boxes: 返回包含已识别字符及其框边界的结果,需要Tesseract 3.05+。有关更多信息，请查看Tesseract TSV文档

image_to_osd: 返回包含有关方向和脚本检测的信息的结果。

2、参数

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

image Object，由Tesseract处理的图像的PIL Image/NumPy数组

lang String，Tesseract语言代码字符串

config String，任何其他配置字符串，例如：config='--psm 6'

nice Integer，修改Tesseract运行的处理器优先级。Windows不支持。Nice调整了unix-like流程的优点。

output_type 类属性，指定输出的类型，默认为string。有关所有支持类型的完整列表，请检查pytesseract.Output类的定义。

二、安装

先决条件：

Python-tesseract需要python 2.7+或python 3.x.

您将需要Python Imaging Library（PIL）（或Pillow fork）。在Debian/Ubuntu下，是python-imaging或python3-imaging。

安装Google Tesseract OCR（有关如何在Linux，Mac OSX和Windows上安装引擎的其他信息）。你必须能够调用Tesseract命令为tesseract。如果不是这种情况，例如因为tesseract不在您的PATH中，则必须更改tesseract_cmd变量pytesseract.pytesseract.tesseract_cmd。在Debian/Ubuntu下，您可以使用包tesseract-ocr。对于Mac OS用户。请通过homebrew安装tesseract。

通过pip安装：

有关更多信息，请查看pytesseract页面。

$ (env)> pip install pytesseract

或者如果你安装了git：

$ (env)> pip install -Ugit+https://github.com/madmaze/pytesseract.git

从源代码安装：

其它教程

如何加载中文数据集以及识别中文，首先前往github下载最新数据集tessdata为识别字体数据集。然后寻找到我们电脑中数据集地址：

将下载的中文数据集放在文件下直接使用即可

当然也可以自定义数据集位置：

python通过pytesseract使用tesseract-o

一、用法

二、安装

其它教程

猜你喜欢

热点阅读