爬虫无限爬取出现的原因

2018-03-20 本文已影响9人扑腾的蛾子

今天写了一个爬虫要爬取的页面是这样的

爬取所有年份的所有的奖项，因为数字不能获取到，于是

将所有的信息进行了循环拼接，

在下一级的方法中进行分析找到要用的detail_url

于是，程序开始了无限制的爬取，我等的都快崩溃了，原来是上面的self.start_urls在用完后没有进行及时的清空，于是当数量越多，页数越多的情况下，重复的次数就会越多，bug虽小，但是还是很折磨人的。

！！！全局数组在用完后一定要清空啊。