爬虫小结

2018-11-15 本文已影响0人山野过客

爬虫是一段自动获取网络数据的程序，用于做搜索引擎等，想做爬虫得实现如下三部

(1).找到目标URL

(2).根据URL发起请求

(3).解析响应结果：

a).提取目标数据

b).如何存在新的URL，进一步提取(会执行1-3这个循环)

我们爬虫使用python

爬虫分为两类：

通用爬虫和聚焦爬虫

通用爬虫:通用爬虫是浏览器的重要组成部分，将互联网上所有的网页下载到本地，做了一个镜像备份,提取重要数据（过滤数据，分词，去广告等等）

通用爬虫的缺点:

1.需要遵循robot协议:Robots协议（爬虫协议、机器人协议等）的全称是"网络爬虫排除标准"

2.搜索引擎返回的结果千篇一律没有很好的针对行，不能钩特殊的用户群体返回对应的数据

3.搜索引擎一般情况下获取的是文本信息，处理图像，音频，视频多媒体还是有困难的

聚焦爬虫：是面向主题的爬虫，由需求产生的爬虫，在爬取网页数据的时候，会对网页数据进行一些筛选，保只抓取和需求相关的数据，以后我们更多的就是实现聚焦爬虫

常见状态码：

100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。

2xx：表示服务器成功接收请求并已完成整个处理过程。

200（OK 请求成功）

3xx：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用

301:　永久重定向

302：临时重定向（所请求的页面已经临时转移至新的url）

4xx：客户端的请求有错误.

400:错误请求，服务器无法解析请求

401:未授权，没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

5xx:服务器端出现错误

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用