爬虫 之 验证码(一)
验证码的是反爬虫策略之一,要如何解决验证码问题?
简单的验证码可以通过二值化的办法
我们以 http://my.cnki.net/elibregister/commonRegister.aspx 为例
1-1首先需要配置环境,pip install pillow,pip install pytesseract
安装Tesseract-OCR 地址:https://digi.bib.uni-mannheim.de/tesseract/ 在这里找到对应版本安装,将安装好的Tesseract-OCR配置到环境变量中去,路径也许会是 C:\Program Files (x86)\Tesseract-OCR\tessdata
1-2准备好了之后就可以开始解析验证码了
首先用selenium打开网页,并进行一个快照保存当前页面的png
browser = webdriver.Chrome()
url ='http://my.cnki.net/elibregister/commonRegister.aspx'
browser.get(url)
browser.save_screenshot('./images/zhiwang.png')
找到图片验证码,并获取他的四个点的坐标,将验证码截取保存
img = browser.find_element_by_id('checkcode')
left = img.location['x']#验证码图片左上角横坐标
top = img.location['y']#验证码图片左上角纵坐标
right = left + img.size['width']#验证码图片右下角横坐标
bottom = top + img.size['height']#验证码图片右下角纵坐标
im=Image.open('./images/zhiwang.png')
im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片
im_crop.save('./images/zrecaptchar.png')
打开验证码的图片并进行灰度处理
img =Image.open('./images/zrecaptchar.png')
img.show()
#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。
gray = img.convert('L')#灰度化,图片转化成灰度图
gray.show()
最后将图片处理成黑白色,即二值化
#二值化,指定而二值化的阈值,默认阈值127
threshold =135
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
bw = gray.point(table,'1')
bw.show()
最后图片识别
strcode = pytesseract.image_to_string(bw)
将处理好的验证码填入验证码输入框中即可,不过这种方式的处理出错率较高,验证的时候一定要记得多试几次
最后附上完整代码
1-3 1-4 1-5from selenium import webdriver
import pytesseract
from PIL import Image
#Chrome浏览器
browser = webdriver.Chrome()
url ='http://my.cnki.net/elibregister/commonRegister.aspx'
browser.get(url)
checkCode = browser.find_element_by_id('txtOldCheckCode')#验证码输入框
btnReg = browser.find_element_by_id('ButtonRegister')#登陆按键
#快照
browser.save_screenshot('./images/zhiwang.png')
#验证码图片
img = browser.find_element_by_id('checkcode')
left = img.location['x']#验证码图片左上角横坐标
top = img.location['y']#验证码图片左上角纵坐标
right = left + img.size['width']#验证码图片右下角横坐标
bottom = top + img.size['height']#验证码图片右下角纵坐标
im=Image.open('./images/zhiwang.png')
im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片
im_crop.save('./images/zrecaptchar.png')
img =Image.open('./images/zrecaptchar.png')
img.show()
#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。
gray = img.convert('L')#灰度化,图片转化成灰度图
gray.show()
#二值化,指定而二值化的阈值,默认阈值127
threshold =135
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
bw = gray.point(table,'1')
bw.show()
strcode = pytesseract.image_to_string(bw)
checkCode.send_keys(strcode)
#模拟点击按钮
btnReg.click()
圆满结束,如果成功率不高的话,可以适当调整二值化阈值,不过总体成功率有待改善。