回顾一个月的爬虫学习

2018-02-19 本文已影响28人苦逼李

学习爬虫凑凑合合也将近一个月了吧，从一开始的一无所知（除了Python）到现在可以爬取一些网站的数据，进步也是能够看到的。作为一个回顾，我在这里把爬虫学习的路径再理一遍，也供想要学习爬虫的伙伴参考参考。

首先学习爬虫没有知乎上大家所说的那样简单，或许我们都有一个误解，听到别人所谓的简单然后自己也以为如此，这实际上是很天真的（自个先打脸了(￣ε(#￣)）。现在看来，最基本的爬虫包含（但不限于）下面几个知识块：

0.网页三剑客（HTML、JS、CSS）+ Python基础

1.HTTP协议（如何获取网页信息）

通过urllib、requests库可以简化请求网页的过程

2.筛选方式+解析库（用于从网页信息中筛选出需要的内容）

常用解析库包含BeautifulSoup，lxml等

筛选方式包含正则、Xpath、CSS Select等

3.格式化信息（如何把获取到的信息加工成便与查看或储存的格式）

需要掌握列表、字符串、字典等数据结构（包含属性和方法的熟练运用）

一些高级的Python特性，比如生成器等

4.储存信息

包含两大类：文件存储，数据库存储

文件存储又包含TXT文件、CSV文件、Json文件，需要熟悉这几种文件的读写方式

数据库存储包含关系型和非关系型，其复杂度高于文件存储，掌握更费时，具体有：

关系型：MySQL

非关系型：MonggoDB、Redis

回头来看，除了Python语言本身之外，上面的任一一块知识都是很“硬”的（Python也很重要），需要花上大把的时间才能熟练掌握。现在看来我是用了较短的时间，通过小项目熟悉了写爬虫需要用到的知识块，做到了心中有数，好处在于心里有底了，减少了茫然，但麻烦就是许多知识掌握的还比较薄弱。不过再怎么说，这也证明了项目指引学习的方式是一种有效的入门手段。

最后再感慨下，安排好各个知识的学习次序，遇到问题知道怎样解决而不是一下子懵逼，能够在纷繁的知识中做到有条不紊的渐进，这些都是作为一个CS-learner的必要但不容易习得的自我修养啊。学习之路还很漫长，还需努力(ง •_•)ง

回顾一个月的爬虫学习

猜你喜欢

热点阅读