Python多线程爬取漂亮小姐姐网站

2021-08-05 本文已影响0人浪漫矢志不渝

最近偶然看到个网站，感觉特别不错，网站也有反爬的一些手段，刚开始也比较难搞，后面用了一些手段也最终拿到了资源。

首先网站限制了开发者工具模式，这种就不能用常规的查看网页元素去定位对应的标签了，我是直接请求页面，把页面元素打印出来看的，废话不多说，直接讲比较关键的一些点。

首先引入的模块参考：

引入的模块

selenium自动化的一些设置参考

设置参考

为了防止过多的人去打扰别人，所以还是隐藏了，根据路径猜到了的，我也没办法。

采集对象的一些基础属性

两个主要的方法：

图片下载的方法

这个方法主要是根据传过来的图片列表和图片集的名称，进行文件夹区分保存，这个其实是第二版，第一版，我也没有做按名称，以文件夹保存，其实还可以优化的。先获取所有图片链接，然后再用线程下载，那样效率可能更快。这里有意思的点是，这个网站的图片链接有几种方式，我就不得已做了些处理了。其中的一些sleep,也可以稍微的修改的。我就赖得弄了。

获取资源的方法

这个方法比较有意思的点是，采用了多线程去处理图片，可以根据自己的电脑或者服务器配置去选择线程的数量。由于用的是selenium,所以需要在当前窗口去查找元素，所以只能滚动到底部，然后查找元素点击了，其实也有其他的方式，大家可以尝试，我比较懒。

启动采集

最后做个总结吧，这个网站其实还是蛮不错的，方法也有很多种，目前我使用的是有界面的模式，无界面的模式，它会502，目前我还没找到原因(猜测是被反扒程序阻止了,可以参考https://www.cnblogs.com/apocelipes/p/9527013.html)。这个网站我尝试了很多的方法，里面的资源，质量也很高。大家有什么疑问也可以和我交流，哈哈哈，我也是刚玩不久。还有，如果站主发现了，觉得不妥，请联系我删除。我还是很怕怕的。哈哈哈，加油，干饭人！！

Python多线程爬取漂亮小姐姐网站

猜你喜欢

热点阅读