Python自动化——识别验证码

2017-12-20 本文已影响123人少杰创业笔记

Python3以后已经不支持PIL，所以要是用pillow，使用方法跟PIL一样。
安装：pip install pillow

Tesseract：是一个开源的光学字符识别(OCR)引擎，可在Apache 2.0许可下使用。它可以直接使用，或者(对于程序员)使用API从图像中提取打印的、手写的或打印的文本。它支持多种语言。
Tesseract没有内置的GUI，但是在3rdParty页面上有几个可用的GUI。

环境变量配置：
2.1 将安装目录配置到环境变量和用户变量的path里面。

环境变量配置

2.2 验证tesserat环境变量配置是否成功
打开CMD，输入tesseract -v。出现版本信息，说明环境变量配置好了

环境验证

直接使用pip install pytesseract安装即可，或者使用easy_install pytesseract
用来连接tessearct进行验证码识别

验证码

from pytesseract import image_to_string
from PIL import Image
img = Image.open(r"GetValidateCode.jpg")
# print(img)
print(image_to_string(img))

console输出

image.png

pytesseract

修改路径

驱动路径