爬虫无限爬取出现的原因
2018-03-20 本文已影响9人
扑腾的蛾子
今天写了一个爬虫要爬取的页面是这样的
爬取所有年份的所有的奖项,因为数字不能获取到,于是
将所有的信息进行了循环拼接,
在下一级的方法中进行分析找到要用的detail_url
于是,程序开始了无限制的爬取,我等的都快崩溃了,原来是上面的self.start_urls在用完后没有进行及时的清空,于是当数量越多,页数越多的情况下,重复的次数就会越多,bug虽小,但是还是很折磨人的。
!!!全局数组在用完后一定要清空啊。