Python多线程爬取漂亮小姐姐网站
2021-08-05 本文已影响0人
浪漫矢志不渝
最近偶然看到个网站,感觉特别不错,网站也有反爬的一些手段,刚开始也比较难搞,后面用了一些手段也最终拿到了资源。
首先网站限制了开发者工具模式,这种就不能用常规的查看网页元素去定位对应的标签了,我是直接请求页面,把页面元素打印出来看的,废话不多说,直接讲比较关键的一些点。
首先引入的模块参考:
![](https://img.haomeiwen.com/i5460373/60a0037f977fb1ec.png)
selenium自动化的一些设置参考
![](https://img.haomeiwen.com/i5460373/61654c05f1c6bdf6.png)
为了防止过多的人去打扰别人,所以还是隐藏了,根据路径猜到了的,我也没办法。
![](https://img.haomeiwen.com/i5460373/a111744e165e2007.jpg)
两个主要的方法:
![](https://img.haomeiwen.com/i5460373/99833c799b9b4811.jpg)
这个方法主要是根据传过来的图片列表和图片集的名称,进行文件夹区分保存,这个其实是第二版,第一版,我也没有做按名称,以文件夹保存,其实还可以优化的。先获取所有图片链接,然后再用线程下载,那样效率可能更快。这里有意思的点是,这个网站的图片链接有几种方式,我就不得已做了些处理了。其中的一些sleep,也可以稍微的修改的。我就赖得弄了。
![](https://img.haomeiwen.com/i5460373/2511eda9af950519.jpg)
这个方法比较有意思的点是,采用了多线程去处理图片,可以根据自己的电脑或者服务器配置去选择线程的数量。由于用的是selenium,所以需要在当前窗口去查找元素,所以只能滚动到底部,然后查找元素点击了,其实也有其他的方式,大家可以尝试,我比较懒。
![](https://img.haomeiwen.com/i5460373/0ba4dbeb4da152fd.jpg)
最后做个总结吧,这个网站其实还是蛮不错的,方法也有很多种,目前我使用的是有界面的模式,无界面的模式,它会502,目前我还没找到原因(猜测是被反扒程序阻止了,可以参考https://www.cnblogs.com/apocelipes/p/9527013.html)。这个网站我尝试了很多的方法,里面的资源,质量也很高。大家有什么疑问也可以和我交流,哈哈哈,我也是刚玩不久。还有,如果站主发现了,觉得不妥,请联系我删除。我还是很怕怕的。哈哈哈,加油,干饭人!!
![](https://img.haomeiwen.com/i5460373/e300de45633ad434.png)