大数据 爬虫Python AI SqliOS 进阶方法论

总结:学习爬虫

2019-03-17  本文已影响7人  终生程序员小松哥

花了10天学习了下爬虫,总结下学习过程中和学习后的感受。

先推荐一本书

《Python 3网络爬虫开发实战 》,作者是一个还在读研究生的小哥哥崔庆才。我全靠把书上的例子敲一遍,来学习爬虫的。这本书的特点有两个:

1,详实的安装步骤:花了整整100页介绍了每个工具的在不同操作系统上的安装步骤;

2,介绍非常全面:涵盖了各种工具;除了网页抓取,还有手机终端抓取。

3,内容安排由浅到深,最后还介绍了分布式爬虫。

爬虫学习非常容易上手

我是零基础开始学习爬虫。之前没学习过Python、MongoDB、Docker。实际上编写爬虫的代码量很小,一个爬虫不超过100行代码就可以搞定。

爬虫的主要是各种工具和Python库的聚合使用。再加上现成而且成熟的Scrapy框架,使用很简单。

要把大象装冰箱总共分几步?三步呀。开门,装大象,关门

一个爬虫的步骤就是三步:抓取网页,抽取数据,数据清理,数据保存。

唯一的难度大概就是在环境了把所有工具都安装起来吧。我在Mac电脑、CentOS,unbuntu都分别安装了一遍环境。

每个程序员都要学下爬虫

爬虫的学习很简单,但是涵盖的知识宽度很广。从简单web应用、cookie,ip,破解http、css、js、ajax、服务部署、分布式概念。但是代码量很小,非常适合学习软件的同学跨入编程这一行,积累一定的知识宽度。

爬虫可以提高工作效率。你可以不必侵入系统,抓取数据;再把数据填充到另一个系统里。

爬虫也扩展了我的思路。以前我做过一款工具型App,因为没有内容和数据来源,思路一致局限在工具型App。有了爬虫技术后,可以通过自动化聚合一些有价值信息,通过技术驱动做些有轻内容的应用。

爬虫的进阶

简单的事情,要做到极致并不容易。这里有两个方向的事要去做:

1,提高爬取效率,减小爬取成本:如何更好的利用好自己的CPU和内存,单位成本有最高产出;如何破解反爬,保证服务的稳定性。

2,进一步延伸:对于获取的数据如何利用。进行大数据的分析,真正产生业务价值;对于数据的图形显示,帮助到业务的决策。

相关学习资料:

1,书:《Python 3网络爬虫开发实战 》

-- 最好的入门资料,没有之一。

2,框架:Scrapy

-- 最通用最强大的框架,没有之一。

-- GitHub上的相关awesome系列:https://github.com/AccordBox/awesome-scrapy

3,很多现成工程:https://github.com/facert/awesome-spider

-- 很多网站的爬虫都现成,做一个爬虫前先去找一找。

爬虫技能的特点

这个一个对动手能力有很要求的技能;但是代码量很少,这不我都10天没写代码。所以学习爬虫之余还是要多找机会写写代码。

上一篇 下一篇

猜你喜欢

热点阅读