Python后端工程师

打造一条爬虫

2016-05-02  本文已影响1648人  odirus

根据知名网站 stackoverflow 调查,被调查者 69% 都是非科班出生。

很多人学习一门语言的第一件事情不是做一个大的项目,而且用它来写一个爬虫,那么如何写好一条爬虫呢?这也是一个值得探讨的问题,爬虫与反爬虫就是实力的较量。

比如我们想爬豆瓣的热门书籍,热门电影,或者想把豆瓣的图书数据都爬下来,那我们应该怎么做呢?中间会遇到什么问题呢?

反爬虫措施一般有哪些呢?

那我们应该怎样取和这些反爬虫措施做斗争呢?

实战篇

看来大家对爬虫的兴趣还是挺高的,决定今天把实战内容加上。

实战目标是:爬取 freeproxylists 上的内容,并且尝试自动发布到简书上来。目标虽然看起来简单,但是他使用了 Google 验证的,本文主要是讲解如何有条理地制作一条爬虫,以及如何绕过它的验证。

上一篇下一篇

猜你喜欢

热点阅读