py爬虫

Python 多线程爬虫自动Killed问题

2015-11-16  本文已影响909人  tianmh

关键词:linux服务器  多线程  爬虫技术

代码大意:自动获取某网站的大量信息,包括id,评价,粉丝等数量的信息。网页大概有70W个网页。

问题:每次大概数据采集访问到5000个网页的时候就出现killed,如何解决?

查了一下网上公开的资料:使用的内存过多被OOM了,killed

措施:转移到本地计算机运行;补充服务器内存;改变存储方式(以前是写入exl里面,结果发现有内存泄露,最终导致killed。解决方案将其储存在文本文档中.txt文件,很好的解决了这一问题)

上一篇下一篇

猜你喜欢

热点阅读