腾讯动漫爬虫与动态随机加载反爬破解技术实战

2019-04-13 本文已影响9人我爱学python

项目需求与问题引入

有时，我们想爬取腾讯动漫中的漫画，比如，我们不妨打开腾讯动漫中某一个动漫的网址http://ac.qq.com/Comic/comicInfo/id/539443，如下图所示：

然后，我们点击“开始阅读”，出现如下所示界面：

可以看到，在此有一副漫画，我们可以按常规方式尝试进行处理，我们查看该网页对应的源代码，可以发现在源代码中并不能找到这副漫画的图片地址，并且，当我们鼠标往下滑动的时候，才会触发加载后续的漫画，所以，我们可以初步断定，这种数据是通过异步加载动态触发出来的。

按照一贯的解决思路，我们接下来尝试使用抓包分析进行解决这个问题，所以我们打开Fiddler。

打开Fiddler之后，我们再次打开动漫页拖动触发出相应的漫画，与此同时，Fiddler中会依次出现新触发的资源信息，如下所示：

我们依次分析这些网址，并把漫画相关的网址整理复制出来，放到word中，如下所示：

通过对比观察，我们可以看到漫画资源的网址规律。

对应的规律如下：

http://ac.qq.com/store_file_download?buid=动漫ID&uin=uin值&dir_path=/&name=日期_随机数_漫画图片ID.jpg

我们可以看到，其地址中有一段是随机数，这一段网址我们很难通过以往的网址构造的方法构造出来，所以，即使分析出了网址规律也无济于事，因为这个网址的规律中有一部分是随机数，即无规律的字段。

所以，显然，这种网址动态触发+资源随机存储的反爬策略我们采用以往的反爬攻关技巧很难解决，这一点大家可以先按常规的方法尝试写一遍便会有深刻感触。

问题的解决办法总是有的，只要我们思考，接下来，我们就为大家讲解这一种反爬策略应该如何攻克解决，今天我们的主要需求与目的是使用Python自动爬取腾讯动漫里面的各个漫画，实现自动加载触发漫画并得到随机地址的功能，以此为例为大家讲解网址动态触发+资源随机存储的反爬策略的攻克方式。

问题难点与解决思路

由上面的介绍，我们可以知道，目前问题的难点在于：

1、漫画图片动态触发，异步加载，无法通过漫画的主网址获得这些各漫画图片的网址，而没有漫画图片的网址，我们无法爬取这些漫画图片。

2、漫画图片网址中含有随机参数，即使我们通过抓包分析分析出各漫画网址的规律，也无法主动构造出这些漫画图片的地址。

这些问题其实我们可以解决，先为大家介绍一下解决思路，解决思路如下：

1、通过PhantomJS（无界面浏览器）自动触发出漫画图片。

2、通过JS代码实现页面滑动，以自动触发出剩下的多张漫画图片。

3、触发出漫画图片之后，将漫画地址通过正则表达式提取出来。

4、交给Urllib或者Scrapy普通爬虫，对相关资源进行自动爬取，在这里我们使用Urllib模块编写相关爬虫。

在这里稍微解释一下，PhantomJS虽然可以触发相关的数据，因为其本质就是浏览器，但是其效率是比较慢的，所以，一般情况下，我们会将主要爬虫处理部分交给Urllib或者Scrapy等常规爬虫，这样效率高，而如果常规爬虫不能处理的部分，我们可以将这一部分交给PhantomJS等处理，处理完成后交由常规爬虫处理，也就是不同的技术负责不同的部分，整合起来写，这样可以让爬虫的效率更高，并且不影响爬虫的功能。

使用PhantomJS实现动态触发动漫图片地址的获取

接下来，我们就来编写实现相关的项目。

首先，我们导入相关模块：