Python面试题库

每天爬取数据量多少,如何才可更高效?

2017-11-04  本文已影响266人  林锐波

每天爬取数据量多少,如何才可更高效?

问题分析

对于该问题,没有确切答案,需要根据实际情况而定.爬虫最重要的问题是容错率高,很多特殊情况都会影响爬虫的效率和质量.

常见特殊情况

以下情况都可能影响爬取数据效率.
软件条件

硬件条件

常见案例

1

2

3

4

软硬件好的情况下,数据量可高达1300W.
详情见

如何才能高效?

如果真的对性能要求很高,可以考虑下面方案.
多线程 : 一些成熟的框架如 Scrapy都已支持
分布式 : 数据量有TB级别可要考虑,否则别用,分布式需要考虑到机器,人员,网络等成本.

上一篇 下一篇

猜你喜欢

热点阅读