python爬虫之图形验证码识别-tesseract库初体验。

2018-09-23 本文已影响0人广州小单纯

ps:环境使用macos,python 3.7,pip3

本教程将记录我学习python爬虫的所有经验。

在爬虫中难免会遇到很多验证码问题，我们可以直接使用ORS(Optical Character Recognition)光学字符识别，通过扫描字符，然后通过起形状将其翻译成电子文本的过程。

我们先来安装所需要的库

brew install imagemagick
brew install tesseract --all-languages //此库安装大概1.2G 大家要有点耐心。

最后安装tesserocr

pip3 install tesserocr pillow

验证是否安装成功

我们直接来识别一个图片看看能否返回成功。

将图片保存到桌面，然后在控制台执行下面代码

cd Desktop
tesseract image.png result -l eng && cat result.txt

使用tesseract识别 imgage.png图片里面的文字

result --> 保存结果的文件名称

-l 使用的语言

eng 英文

cat result.txt 输出之前保存的result.txt文字。

输出结果：

Tesseract Open Source OCR Engine v3.05.02 with Leptonica

cat: result: No such file or directory

我们在代码中测试一下

创建一个文件夹，里面创建一个tesserocrTest.py(ps:名字不能为resserocr.py，会和我们要引用的库名冲突导致报错)，然后将image.png放入文件夹中

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

运行结果：Python3WebSpider

如果都成功输出，证明tesseract / tesserocr都安装成功。