python_爬虫

05:Python爬虫|猿人学第四题:css反爬,雪碧图,样式干

2021-12-23  本文已影响0人  HAO延WEI

转载地址:https://zhuanlan.zhihu.com/p/348069929
如有侵权,请及时联系我立即删除!


链接:https://match.yuanrenxue.com/match/4
简介:

目标:任务4:采集这5页的全部数字,计算加和并提交结果

1、环境

Python3.7、pyexecjs、requests、lxml

2、分析请求

这道题的题目叫“雪碧图、样式干扰”,一开始我还没发现这些数字都是图片,看到返回的数据才知道这些数字都是一个个照片组成。



先请求一次看看返回的json中的info内容是什么。


返回的是一段HTML代码,td标签有10正好匹配10个数字,那第一页应该是39张照片,对应39个img标签。



但是返回了79个img标签,这是怎么回事呀?

打开打开开发者工具进入Elements,可以看到最后一个数字8898只有4个数字但是有6个img标签。


仔细观察可以发现有些img标签的属性是display: none,这就是不展示的意思。这里还有一个坑,展示的明明是8898但是HTML的顺序是8889,这个就要观察img标签中的left属性。

8898如果不打乱的话应该是每个照片的left都是0px,现在HTML展示的8889的left,是11.5、23.0、-23.0、-11.5,翻译过来的话就是第一个数向右偏移1位数、第二个数向右偏移2位数、第三个数向左偏移2位数、第四个数向左偏移1位数。



数字排序问题解决了,那display: none该如何判断,查看数据接口呗。




var j_key = '.' + hex_md5(btoa(data.key + data.value).replace(/=/g, ''));
$(j_key).css('display', 'none');

data就是请求返回的data,如图2-8,btoa()是JavaScript的base64编码方法,内容就是data中的key与value相加,base64编码完后将=号替换为空,最后用MD5加密。

查看返回的数据中的info内容



每个img标签内的有一个class属性这个一看就大概知道是MD5加密。



如图2-10,先查看返回了多少张照片呢,再查查MD5加密出来的密文有多少条。

27条减去一条,65-26=39,刚符合第一页有39个数字,那估计加密处理的密文就是代表不展示,经过过次测试果然是这样。

3、代码实现

这题的代码有点长,主要难点就是如何让数字恢复原本的顺序

import re
import base64
import hashlib
import requests
from lxml import html

headers = {
  'Connection': 'keep-alive',
  'Pragma': 'no-cache',
  'Cache-Control': 'no-cache',
  'Accept': 'application/json, text/javascript, */*; q=0.01',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
  'X-Requested-With': 'XMLHttpRequest',
  'Referer': 'http://match.yuanrenxue.com/match/4',
  'Accept-Language': 'zh-CN,zh;q=0.9',
}
number_base = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 9
}


def encode_base64(content) -> str:
    return base64.b64encode(content.encode('utf-8')).decode('utf-8')


def md5_encrypt(content):
    return hashlib.md5(content.encode('utf-8')).hexdigest()


def get_md5_json(url):
 """不展示的MD5"""
 response = requests.get(url=url, headers=headers)
    result = response.json()
    md5_text = encode_base64(result['key'] + result['value']).replace('=', '')
    return md5_encrypt(md5_text), result['info']


def cal_tag(text, father_tag, son_tag):
 """计算某标签下的子标签数量"""
 son_tag_length = []
    com = re.compile(f'<{father_tag}>(.+?)</{father_tag}>', re.S)
    son_text = com.findall(text)
    for i in son_text:
        son_tag_length.append(len(re.findall(f'<{son_tag}', i, re.S)))
    return son_tag_length


def restore_order(src_base_list, left_list, whether_show):
    number_list = [number_base[i] for i in src_base_list]
    show_number_list = [i for i, x in enumerate(whether_show) if x != 1]
    number_list = [number_list[i] for i in show_number_list]
    left_list = [left_list[i] for i in show_number_list]
    left = [int(eval(i) / 11.5) for i in left_list]
    result = [None] * len(left)
    for x, y in zip(number_list, left):
        result[number_list.index(x) + y] = x
        number_list[number_list.index(x)] = -1
    temp = ''
    for i in result:
        temp += str(i)
    return temp


def main():
    for page in range(1, 4):
        url = f'http://match.yuanrenxue.com/api/match/4?page={page}'
        md5_class, info = get_md5_json(url=url)
        etree = html.etree
        a = etree.HTML(info)
        src = a.xpath('//img/@src')
        td_class = a.xpath('//img/@class')
        com = re.compile('left:(.+?)px')
        style = com.findall(info)
        start, end, temp = 0, 0, 0
        for i in td_class:
            if i == 'img_number ' + md5_class:
                td_class[temp] = 1
            temp += 1
        number_list = []
        for length in cal_tag(info, father_tag='td', son_tag='img'):
            end += length
            number_list.append(restore_order(src_base_list=src[start: end], left_list=style[start:end], whether_show=td_class[start:end]))
            start = end
        print(number_list)


if __name__ == '__main__':
    main()
上一篇下一篇

猜你喜欢

热点阅读