掌握开发轻量级爬虫0

2018-12-28 本文已影响5人 Datacat

第1章介绍

1、简单爬虫架构有3个模块：（这些模块怎样组装在一起完成整个爬取任务。这里简单的架构经过扩展可以爬取所有互联网网页）

URL管理器：用来管理将要抓取的URL和已经抓取过的URL两方面的内容。

网页下载器（urllib）：给定一个URL，需要将URL下载到本地以后才能进行分析。我们用Python自带的urllib

模块进行下载。

网页解析器（BeautifulSoup）：得到网页内容后，需要通过解析提取出我们想要感兴趣的东西。我们用Python的第三方插件BeautifulSoup进行网页解析。

2、案例：爬取百度百科Python词条相关的1000个页面数据，并以HTML

第2章爬虫简介以及爬虫的技术价值

1、爬虫简介

2、爬虫意义：数据为我所用、去分析

第3章简单爬虫架构

1、简单爬虫架构

爬虫调度端：启动爬虫，停止爬虫，或监视爬虫的运行情况。

URL管理器：管理已经抓取过得URL和将要抓取的URL（防止循环抓取和重复抓取），并从中取出一个待爬取的URL将其传送给网页下载器。

网页下载器：将指定网页内容下载为一个字符串，并将字符串传送给网页解析器进行解析。

网页解析器：解析出有价值的数据和获取该网页中指向其他网页的URL，将新获取的URL补充到URL管理器中。

2、简单爬虫架构的动态运行流程

用可视化展示流程——时序图

首先，调度器询问URL管理器有没有待爬取的URL，URL管理器向调度器返回是或否，若为是，则调度器从URL管理器中获取一个待爬URL，URL管理器将这个URL返回给调度器。然后调度器将这个URL传送给下载器，让下载器开始下载，下载完成后，下载器将URL内容返回给调度器。再然后调度器将URL内容传输给解析器进行解析，解析后，解析器返回有价值的数据和新URL列表两方面内容给调度器，一方面调度器将价值数据传给应用去收集价值数据，另一方面将新的URL列表补充给URL管理器，这时若URL管理器还有新的待爬取的URL，一直循环，直到爬取过所有没有爬取的URL为止。最后，调度器会调用我们需要的方法进行输出，将有价值的数据输出成我们需要的格式。

第4章 URL管理器和实现方法

1、URL管理器

管理两个集合：已经抓取过得URL集合和将要抓取的URL集合

每个网页都有很多指向其他网页的URL，其他网页的URL也会指向本网页。这样不同的URL之间存在一种循环指向的问题。不能形成死循环啊。所以要管理啊。

2、URL管理器需要支持如下功能

* 添加新URL到待爬取集合中；在添加的过程中判断是否已经存在在该URL容器中；如果是，则不能添加，以防止重复抓取。同时我们支持从容器中获取一个待爬取的URL；获取时需要判断容器中是否还有待爬取的URL；最后该URL被爬取后，我们需要将其从待爬取集合移动到已爬取集合。

2、URL管理器之实现方式3种：

（一）将已爬取或和待爬取的URL集合存放在内存中，用Python语言的话，可以将这两个URL集合放在set()数据结构中，因为Python的set结构可以自动去除重复的内容。

小型公司或个人使用“内存”

（二）将URL存放在关系数据库中，建立一个表，里面有两个字段（url，is_crawled），is_crawled字段标志这个URL的状态是待爬取还是已爬取。用一个表来存储待爬取和已爬取两个集合的数据

内存不够用或想要永久保存使用“关系数据库”

（三）将URL存放在一个缓存数据库中，比如redis，本身支持set的结构，所以我们可以将待爬取的和已爬取的URL存放在set中。

大型公司使用“缓存数据库”

第5章网页下载器和urllib2模块

1、Python的网页下载器

urllib2(官方基础模块）（经验证python换成urllib）

requests（第三方包更强大）

2、urllib2下载器有以下三种下载方法：

①最简洁的方法：用urllib2的urlopen方法给定一个ur字符串，实现网页的下载，返回的内容会传送给response这个对象，然后用response的方法。对应代码如下：

②共享处理：添加http header向服务器提交http的头信息，添加data可以向服务器提交需要用户输入的数据，把以下3个参数，传给~request类，生成一个request对象。再用urlopen方法，用request做参数，发送网页请求。对应代码如下：

③添加特殊情景的处理器：

例：有的网页需要用户登录才能访问，我们就需要添加cookie的处理，我们使用HTTPCookieProcessor；有的网页需要代理才能访问，我们使用ProxyHandle；有的网页的协议是HTTPS加密访问的，我们使用HTTPSHandler；有的网页的URL是相互自动的跳转，我们使用HTTPRedirectHandler。

将这些handler传送给urllib2的bulid_opener方法来创建对象，我们给urllib2再install这个opener，这样这个urllib2就具有了处理这些场景的能力，然后依然并用urlopen方法来请求一个URL，或请求一个request实现网页的下载。