Python个性化面向对象分类爬虫

2019-03-31 本文已影响20人我爱学python

摘要：有意想整个图片采集站，有了这个想法接下来就是实践了，空间域名啥的都买了，今天写的这个是采集美图网站的

环境：Windows

工具：PyCharm

版本：Python3.6

模块：requests、lxml、pymysql、time

我们会在首页、列表页、分类页、内容页多次用到requests.get()方法，所以简单的封装一下

is_xpath用来区分直接返回网页源码还是返回经过处理的直接用xpath匹配的。

因为多个地方要把数据入库所以封装个数据插入的方法：

More来区分是插入一条还是插入多条。

因为分类很多，每个分类下的页数也很多，所以打算分开来抓，那么我们就按输入的分类和页数来执行爬虫

在spider类中，定义了choicCate()方法，此方法就是让用户开输入分类和页数的，只做了对分类错误的处理，其中10代表了现在的10个分类，

在这里我没有去做错误次数的限制，想加的可以加上。下面是choicCate()方法：

run()就是我们的主函数了，根据用户输入的分类和页数执行爬虫

getInfo()方法获取分类下所有的缩略图和名称和内容页链接，获取到后存入mysql，根据内容页链接继续获取所有内容页的的图片

getInfoImages()方法就是来获取内容页详情图并存入mysql的

因为在分类页没有显示tags标签，只有在内容详情页才有，所有还需要更新下之前的表，updateSQL()就是这个功能，下面我们看看执行的效果吧，效果如下：