简单js反爬小练习-python爬虫

2018-01-16 本文已影响105人极致简洁

原文：https://www.jianshu.com/p/1114f9f4b6db

众所周知，在数据抓取的道路上，javascript是一个绕不开的坎。非常复杂的js反爬技巧如极验，这个实际上也是可以破解的，业界也有现成产品了。
本篇文章，我们便是从一个非常简单的js反爬脚本着手，粗浅得介绍一种简单的反爬手段，以及我们如何针对这种情况进行破解。

首先，我们来看这么一段程序，它是get请求中获取到页面源码的一部分。

var s = '1.41.601'.split('').reverse().join('');
var yy = atob('\x4d\x69\x34\x79\x4e\x44\x41\x3d'.replace(/\\x([0-9A-Fa-f]{2})/g,
    function() {
        return String.fromCharCode(parseInt(arguments[1], 16))
    }));
var pp = -3983 + 12065;
document.write('<a href="/' + s + yy + '/' + pp + '#http">' + s + yy + String.fromCharCode(58) + pp + '</a>');

这是一串非常简单的js代码，其作用就是拼装IP+port，作为超链接输出到网页上。
页面上的显示效果如下

<a href="/106.14.12.240/8082#http">106.14.12.240:8082</a>

常规的get请求是无法直接获取到这段ip地址的，而只能获取其对应的js源码。这便是js反爬的一种手段，一种非常初级的手段，但不可否认，它确实起到了反爬的作用。

有了上述源码和页面显示的对比，相信大家对这段代码的功能一定有了直观的认识。

而反爬破解，就这个页面来说，就是解析这段js代码的功能，并用python实现，从而根据页面上的源码，获取到我们想要的数据，也就是这个IP+PORT。

接下来我们便从代码层面一句一句解析这段js程序，并用python实现。

首先，第一行程序，各位看到reverse，再对比一下输出效果，业务功能便呼之即出了，因而我们的问题只两个，其一如何获取到原始文本，其二，python代码如何实现。关于问题一，用正则，问题二，字符串反转在python里面的实现非常之简单。代码如下

ip_part1 = re.search(r'\'(.*)\'\.split', page_content).group(1)[::-1]

当然，这个正则可以有多种写法，考虑到篇幅以及博主的功力，此处就不深入展开了。而字符串反转，一个切片即可搞定，大家若想深入，可自行度娘或者谷哥。

接着我们来看这第二段代码，这里出现了2个自带函数，一个是atob(解析base64的字符串)，而另一个则是replace（搭配 /XXX/g 就是js里面的正则替换功能）。

String.fromCharCode(parseInt(arguments[1], 16))如字面，即获取16进制数字，然后转换成对应ascii码的字符。

整体看下来，这段代码的意思就是通过正则截取源字符串的16进制数字，转换成对应的base64字符串，然后利用atob转换成utf-8编码格式的字符串。
ok，有了业务功能，那么python代码的实现也就简单了，实现如下

ip_part2= ''.join([chr(int(x, 16)) for x in re.findall(r'\\x([0-9A-Fa-f]{2})', page_content)])

难点部分已然解析完成，剩下一个pp，这个就不多说了，两个数字的运算结果就是端口号，大家请自己动手，我就不赘述了。

整个小练习到此也就告一段落了，不知不觉中，各位已经跟着博主完成了一次小小的反爬破解。本质上来讲，破解反爬就是要读懂反爬工程师的思路。

破解方式多种多样，而需要我们考虑，或者说权衡的核心要素在博主看来有两点
其一，破解实现是否是程序运行效率上的最优解。
其二，破解反爬的耗时是否在项目可承受范围内。

有时候，我们需要静下心来好好搞破解，而有时候，直接用selenium这类自动化工具也未尝不可。

转载请注明出处，谢谢！

简单js反爬小练习-python爬虫

猜你喜欢

热点阅读