Pythoner集中营pyqt学习笔记数据科学

利用二分法+opencv识别网易易盾滑动验证码的位移值

2018-04-11  本文已影响342人  疯智子

在做毕设的时候接了一个小项目,破解一个网站的登录验证,研究了一下发现该网站采用的网易易盾的验证码,下面翻出网址就是一顿开撸!http://dun.163.com/trial/jigsaw

image

先在网上查了下资料,发现知乎下刚好有个帖子,滑块验证码(滑动验证码)相比图形验证码,破解难度如何?,有个高票回答为了用机器学习的方式来破解网易易盾的滑动验证码,请了几个小学生来标注数据,但我身边不认识小学生啊,总不能也去网吧遛一圈吧,我怕我去了就专心地吃起了鸡,而把正事忘干净了,无奈之下,只能再想想别的办法。。。

能不能单纯通过算法而不借助数据就把这个验证码破解了呢?

上面的帖子里还出现了极验验证码的破解方式,因为它每次会出两张图,一张带缺口的,一张不带缺口的,于是可以通过图片对比找到位移。但网易易盾自始至终只有一张图片,这可咋对比哦,没办法,还是先研究一下验证码长啥样吧。

image

用开发者工具看了一下,发现它的验证码也是两部分,一部分是jpg格式的目标图片,一部分是png格式的带缺口的滑块。于是很自然地想到要是能直接把缺口给抠下来,然后在整个目标图片查找一下,最后输出匹配位置的坐标岂不是就搞定了吗。

搜索了一下opencv的图像匹配,发现刚好有个模板匹配的功能,于是第一个问题就解决了。再来看看python可以怎么抠图,然而找了半天最多都只有替换背景,虽然理论上稍微研究一下应该是能够把前景图片单独保存下来的,但那会儿下午刚好有点困,不想动太多脑子,哈哈哈。

紧接着就想到,png格式的图片,背景是透明的,那模板匹配的时候是不是直接就能匹配上呢?有了这个想法的我瞬间懊恼不已,觉得自己之前一心想抠图真的是太蠢了,不管了,先试试能不能匹配上吧。把目标图片一换,果然是有结果的,但结果好像有点多啊。没关系,一定是阈值定得太低了,调了几次阈值后找到一个合适的,结果完美。只是我对自己之前的愚蠢做法更懊恼了。。。

image

接下来试试换一张图片能不能跑通吧,熟练地右键下载图片并覆盖,按下F5运行,得到了这样的图片:

image

woc??这是什么鬼,怎么又是这么多结果,,看来每个图片的阈值是不一样的啊。我没去细究其中的原理,不过猜想一下感觉还是有道理的,不同颜色的图片,明暗不一样,缺口的位置不一样,缺口的颜色就会不一样,所以阈值一定是有区别的。

然而,道理是想明白了,我TM怎么能自动找准阈值呢?难不成最后还是得祭出机器学习的大招?

就在万念俱灰的时候,突然想到测试时调阈值的情况,阈值设置得太大就没有结果,设置得太小就有N个结果,这不就是高中还是初中数学学的二分法的应用题吗。想到之后觉得此题已经被我拿下了,于是马上上手撸代码。阈值的范围区间是[0, 1],分别设置成左端L和右端R(如此佛系的变量命名估计也只有我想得出来了,233333333333),算法如下:

  • 阈值始终为区间左端和右端的均值,即 threshhold = (R+L)/2;
  • 如果当前阈值查找结果数量大于1,则说明阈值太小,需要往右端靠近,即左端就增大,即L += (R - L) / 2;
  • 如果结果数量为0,则说明阈值太大,右端应该减小,即R -= (R - L) / 2;
  • 当结果数量为1时,说明阈值刚好

下面是模板匹配的函数,可以显示匹配结果

    def match(self, target, template):
        img_rgb = cv2.imread(target)
        img_gray = cv2.cvtColor(img_rgb, cv2.COLOR_BGR2GRAY)
        template = cv2.imread(template,0)
        run = 1
        w, h = template.shape[::-1]
        print(w, h)
        res = cv2.matchTemplate(img_gray,template,cv2.TM_CCOEFF_NORMED) 
        
        # 使用二分法查找阈值的精确值 
        L = 0
        R = 1
        while run < 20:
            run += 1
            threshold = (R + L) / 2
            print(threshold)
            if threshold < 0:
                print('Error')
                return None
            loc = np.where( res >= threshold)
            print(len(loc[1]))
            if len(loc[1]) > 1:
                L += (R - L) / 2
            elif len(loc[1]) == 1:
                print('目标区域起点x坐标为:%d' % loc[1][0])
                break
            elif len(loc[1]) < 1:
                R -= (R - L) / 2

        for pt in zip(*loc[::-1]):
            cv2.rectangle(img_rgb, pt, (pt[0] + w, pt[1] + h), (7, 279, 151), 2)
        cv2.imshow('Dectected', img_rgb)
        cv2.waitKey(0)
        cv2.destroyAllWindows()
        return loc[1][0]

让我们来看看用上面的代码跑下来会发生什么吧

image

上图中这些小数就是在自动使用二分法寻找阈值时的阈值记录,用7次就找出结果了,效率还是蛮高的。实际测试中,我最多遇到有14次才找准阈值的精确解的,也是很煞费苦心了。

到这里整个程序的核心就已经解决了,但还有一点小问题,这个代码在我自己电脑上运行的时候没问题,但到了别人的电脑上就不好使了,因为屏幕分辨率不一样,所以最终操纵浏览器要移动的位移是需要缩放的。要拿到这个缩放系数,可以将目标文件在网页上的大小和下载下来后实际的大小做比对,即可拿到。我们用一个get_pic函数来解决所有与图片相关的问题。

    def get_pic(self):
        time.sleep(2) # 有的网站可能加载比较慢,会导致网页上看到的图片和下载下来的图片不一样,等待个1~2秒就好了
        target = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'yidun_bg-img')))
        template = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'yidun_jigsaw')))
        target_link = target.get_attribute('src')
        template_link = template.get_attribute('src')
        target_img = Image.open(BytesIO(requests.get(target_link).content))
        template_img = Image.open(BytesIO(requests.get(template_link).content))
        target_img.save('target.jpg') # 将目标图片下载到本地
        template_img.save('template.png')
        size_orign = target.size
        local_img = Image.open('target.jpg') # 打开本地保存的目标图片,获取图片宽度
        size_loc = local_img.size
        self.zoom = 320 / int(size_loc[0]) # 缩放系数为320除以本地的宽度,320为目标图片在网页上的宽度
        print(self.zoom)

这个缩放系数乘以match函数拿到的缺口水平坐标就是我们要移动的距离,当然最后还是需要一定的微调的。效果长这样,第一排的0.66666666就是缩放系数,最下面红圈里的的数值就是实际需要移动的位移。于是这个代码即使更换了屏幕的分辨率,也能完美运行。

image

下面贴上完整代码,删除了一些debug的东西,轨迹的计算参考了其他大神的代码

from PIL import Image, ImageEnhance
from selenium import webdriver  
from selenium.webdriver import ActionChains  
from selenium.webdriver.common.by import By  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.support import expected_conditions as EC  
from selenium.webdriver.support.wait import WebDriverWait   
import cv2
import numpy as np
from io import BytesIO
import time, requests

class CrackSlider():
    """
    通过浏览器截图,识别验证码中缺口位置,获取需要滑动距离,并模仿人类行为破解滑动验证码
    """
    def __init__(self):
        super(CrackSlider, self).__init__()
        # 实际地址
        self.url = 'http://dun.163.com/trial/jigsaw'
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 20)
        self.zoom = 1

    def open(self):
        self.driver.get(self.url)

    def get_pic(self):
        time.sleep(2)
        target = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'yidun_bg-img')))
        template = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'yidun_jigsaw')))
        target_link = target.get_attribute('src')
        template_link = template.get_attribute('src')
        target_img = Image.open(BytesIO(requests.get(target_link).content))
        template_img = Image.open(BytesIO(requests.get(template_link).content))
        target_img.save('target.jpg')
        template_img.save('template.png')
        size_orign = target.size
        local_img = Image.open('target.jpg')
        size_loc = local_img.size
        self.zoom = 320 / int(size_loc[0])

    def get_tracks(self, distance):
        print(distance)
        distance += 20
        v = 0
        t = 0.2
        forward_tracks = []
        current = 0
        mid = distance * 3/5
        while current < distance:
            if current < mid:
                a = 2
            else:
                a = -3
            s = v * t + 0.5 * a * (t**2)
            v = v + a * t
            current += s
            forward_tracks.append(round(s))

        back_tracks = [-3,-3,-2,-2,-2,-2,-2,-1,-1,-1]
        return {'forward_tracks':forward_tracks,'back_tracks':back_tracks}

    def match(self, target, template):
        img_rgb = cv2.imread(target)
        img_gray = cv2.cvtColor(img_rgb, cv2.COLOR_BGR2GRAY)
        template = cv2.imread(template,0)
        run = 1
        w, h = template.shape[::-1]
        print(w, h)
        res = cv2.matchTemplate(img_gray,template,cv2.TM_CCOEFF_NORMED) 
        
        # 使用二分法查找阈值的精确值 
        L = 0
        R = 1
        while run < 20:
            run += 1
            threshold = (R + L) / 2
            print(threshold)
            if threshold < 0:
                print('Error')
                return None
            loc = np.where( res >= threshold)
            print(len(loc[1]))
            if len(loc[1]) > 1:
                L += (R - L) / 2
            elif len(loc[1]) == 1:
                print('目标区域起点x坐标为:%d' % loc[1][0])
                break
            elif len(loc[1]) < 1:
                R -= (R - L) / 2

        return loc[1][0]

    def crack_slider(self):
        self.open()
        target = 'target.jpg'
        template = 'template.png'
        self.get_pic()
        distance = self.match(target, template)
        tracks = self.get_tracks((distance + 7 )*self.zoom) # 对位移的缩放计算
        print(tracks)
        slider = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'yidun_slider')))
        ActionChains(self.driver).click_and_hold(slider).perform()

        for track in tracks['forward_tracks']:
            ActionChains(self.driver).move_by_offset(xoffset=track, yoffset=0).perform()

        time.sleep(0.5)
        for back_tracks in tracks['back_tracks']:
            ActionChains(self.driver).move_by_offset(xoffset=back_tracks, yoffset=0).perform()

        ActionChains(self.driver).move_by_offset(xoffset=-3, yoffset=0).perform()
        ActionChains(self.driver).move_by_offset(xoffset=3, yoffset=0).perform()
        time.sleep(0.5)
        ActionChains(self.driver).release().perform()
        try:
            failure = self.wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME, 'yidun_tips__text'), '向右滑动滑块填充拼图'))
            print(failure)
        except:
            print('验证成功')
            return None

        if failure:
            self.crack_slider()

if __name__ == '__main__':
    c = CrackSlider()
    c.crack_slider()

实际中测试发现,用此方法检测缺口的正确率能达到95%以上(19/20),不正确的时候直接重试即可,轻松简洁。祝大家玩得愉快~

上一篇下一篇

猜你喜欢

热点阅读