Python爬虫-尝试使用人工和OCR处理验证码模拟登入

2017-10-24 本文已影响220人小小佐

此次是我第一次模拟登入，目标站点是知乎。
刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码，我打开自己的知乎登入页面，发现只有账号和密码，他们说的倒立的验证码去哪了，后面仔细一想我之前登入过知乎，应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了：

分析-01.png

参考了大多数的意见，可以模拟登入移动端，验证码形式是我们常见的字母数字组合，避开这个点击倒立的验证码形式，然后我就在移动端抓包了,可以拿到验证码图片的包，我们可以请求这个URL拿到每次的验证码：

分析-02.png

这个URL的结构是:https://www.zhihu.com/captcha.gif?r=xxx&type=login

分析-03.png

搜索"<input",可以抓到如下：

分析-04.png

要拿到_xsrf、captcha、phone_num、password这四个参数，然后模拟发送POST请求，phone_num、password好处理就是登入的手机号码和密码，手动输入即可。

对于_xsrf,我是利用了正则表达式来提取，出现的问题：
1、刚开始的URL写成https://www.zhihu.com/提取不到内容，后面把此请求的response打印出来，发现并不是我们所需要的页面，后面返回PC端去拿到这个URL，返回我们所需的页面。
2、正则表达式匹配的时候总是多匹配了多余的内容，同样在打印出源代码的时候发现 value="(.*?)"/>有一个/。

def get_xsrf():
    url='https://www.zhihu.com/signin?next=/'
    html=session.get(url=url,headers=headers).text
    pattern=re.compile('.*?<input type="hidden" name="_xsrf" value="(.*?)"/>', re.S)
    _xsrf=re.search(pattern,html).group(1)
    if _xsrf:
        print('_xsrf获取成功:'+ _xsrf)
        return _xsrf
    else:
        print('_xsrf获取失败')

对于captcha，就是验证码了，在刚开始的时候也提到了，可以请求相应的URL，拿到每次所需的验证码，人工来识别验证码的好处就是准确率高，这里我尝试使用了，人工识别的方法：
验证码图片会下载至项目所在的文件夹，打开图片，输入验证码即可

def get_captcha():
    t=int(time.time()*1000)
    url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
    content=session.get(url=url,headers=headers).content
    with open('captcha.jpg','wb') as f:
        f.write(content)
    im=Image.open('captcha.jpg')
    im.show()
    time.sleep(5)
    im.close()
    return input('请输入验证码:')

后面我又尝试使用OCR(Optical Character Recogintion，光学字符识别)，所用到的包是pytesseract,看能不能够自动识别，但是显然效果是很差的，在此也记录一下：

def get_captcha():
    t=int(time.time()*1000)
    url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
    content=session.get(url=url,headers=headers).content
    with open('captcha.jpg','wb') as f:
        f.write(content)
    im=Image.open('captcha.jpg')             #把彩色图像转化成灰度图像
    gray=im.convert('L')                
    gray.show()                         
    threshold=200                            #二值化处理
    table=[]                                
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    out=gray.point(table,'1')
    out.show()
    out.save('captcha_thresholded.jpg')
    th=Image.open('captcha_thresholded.jpg')  #使用Tesseract进行图片识别
    print(pytesseract.image_to_string(th))
    return pytesseract.image_to_string(th)

试了几次，OCR识别的结果都是有问题的，结果是这样的：

分析-07.png

Python爬虫-尝试使用人工和OCR处理验证码模拟登入

猜你喜欢

热点阅读