总结：学习爬虫

2019-03-17 本文已影响7人终生程序员小松哥

花了10天学习了下爬虫，总结下学习过程中和学习后的感受。

先推荐一本书

《Python 3网络爬虫开发实战》，作者是一个还在读研究生的小哥哥崔庆才。我全靠把书上的例子敲一遍，来学习爬虫的。这本书的特点有两个：

1，详实的安装步骤：花了整整100页介绍了每个工具的在不同操作系统上的安装步骤；

2，介绍非常全面：涵盖了各种工具；除了网页抓取，还有手机终端抓取。

3，内容安排由浅到深，最后还介绍了分布式爬虫。

我是零基础开始学习爬虫。之前没学习过Python、MongoDB、Docker。实际上编写爬虫的代码量很小，一个爬虫不超过100行代码就可以搞定。

爬虫的主要是各种工具和Python库的聚合使用。再加上现成而且成熟的Scrapy框架，使用很简单。

要把大象装冰箱总共分几步？三步呀。开门，装大象，关门

一个爬虫的步骤就是三步：抓取网页，抽取数据，数据清理，数据保存。

唯一的难度大概就是在环境了把所有工具都安装起来吧。我在Mac电脑、CentOS，unbuntu都分别安装了一遍环境。

爬虫的学习很简单，但是涵盖的知识宽度很广。从简单web应用、cookie，ip，破解http、css、js、ajax、服务部署、分布式概念。但是代码量很小，非常适合学习软件的同学跨入编程这一行，积累一定的知识宽度。

爬虫可以提高工作效率。你可以不必侵入系统，抓取数据；再把数据填充到另一个系统里。

爬虫也扩展了我的思路。以前我做过一款工具型App，因为没有内容和数据来源，思路一致局限在工具型App。有了爬虫技术后，可以通过自动化聚合一些有价值信息，通过技术驱动做些有轻内容的应用。

简单的事情，要做到极致并不容易。这里有两个方向的事要去做：

1，提高爬取效率，减小爬取成本：如何更好的利用好自己的CPU和内存，单位成本有最高产出；如何破解反爬，保证服务的稳定性。

2，进一步延伸：对于获取的数据如何利用。进行大数据的分析，真正产生业务价值；对于数据的图形显示，帮助到业务的决策。

这个一个对动手能力有很要求的技能；但是代码量很少，这不我都10天没写代码。所以学习爬虫之余还是要多找机会写写代码。