爬虫001

2018-04-16  本文已影响0人  骑猪追火车

爬虫概述

——骑猪追火车

1、目录清单

1、爬虫简介

2、通用爬虫和聚焦爬虫

3、网络请求是怎么回事儿

4、网络数据抓包

2、课堂内容

2.1、爬虫简介

在各行各业如火如荼快速发展的今天,市场是决定一家公司是否可持续发展最重要的一个衡量指标,市场的定位和发展核心是对行业数据的分析,对于数据的分析必须进行大量数据的统计分析才能得到一个比较中肯的处理建议,那么问题就来了~分析市场的行业数据,从哪里才能得到呢?

每个公司都是要发展的,他们对市场上的数据很看重,就会去网络上搜索自己所需要的数据,获取并进行分析,用来指导公司的大方向。这些数据提供者是从如何得到数据的?一种是可以共享的免费数据,一种是比较有针对性的私密数据。免费数据一般都是任何人都可以浏览的,私密数据大多都是禁止查阅或者收费查阅,数据来源大致有这几个方面:

爬虫新手5问 what? why?where?how?when?

快速了解爬虫

2.2、通用爬虫和聚焦爬虫

根据爬虫的应用场景不同大致分为两种类型:
通用爬虫和聚焦爬虫

2.2.1、通用爬虫

通用爬虫是网络搜索引擎的一部分,遵循爬虫的robot协议,负责采集网络中的网页信息内容并建立索引,在自己的搜索引擎服务器上建议网络信息的索引镜像备份文件,达到对网络上的信息内容可以快速检索的目的

robot协议:是关于网络爬虫的一种约定的协议,robot协议明确告诉了通用网络爬虫,哪些数据内容是可以爬取的,哪些数据内容是不允许爬虫采集的,如果是合法合规的爬虫程序,必须遵循robot协议约定的采集内容区域,否则可能涉及到维权行为!

通用爬虫的一些局限性:
针对上述局限性,聚焦爬虫技术得以广泛使用

2.2.2、聚焦爬虫

程序开发人员针对具体的需求,针对性的开发获取数据的程序,通过程序的自动化操作,完成人工筛选过程~[自定义采集方式、自定义筛选条件、自定义过滤措施->私人订制!],不需要遵循robot协议!可以获取到更加准确的数据!

so -- 我们的目标聚焦爬虫

2.3、网络请求是怎么回事儿

网络中的数据,更多的操作是对于目标服务器上网页数据的方式,网络数据的一般访问使用的都是HTTP协议和HTTPS协议,通过浏览器进行网页访问的过程中,在请求的请求头信息中包含了客户端浏览器的身份信息;在响应数据中包含了对于响应内容的描述信息等

2.3.1、HTTP协议和HTTPS协议

HTTP协议:超文本传输协议,是网页访问过程中常用的一种协议,用于传输超文本标签描述的内容,默认访问端口:80
HTTPS协议:提过了安全通道的HTTP协议,在网页数据访问过程中,对于访问的数据进行了数字签名实现了非对称数据加密方式以保障数据的安全性。默认访问端口:443

在指定的访问协议写,进行数据资源的访问,通过网络统一资源定位符URL进行访问,一般情况下,一个完整的请求URL主要包含如下几个部分:
http://www.baidu.com/s?wd=url
[访问协议]://[主机域名][:端口号]/[资源路径][?查询字符串]

2.3.2、请求方式

HTTP1.1协议标准规定了8种常规请求方式,分别如下:

2.3.3、请求头 request header

请求头信息是请求数据的重要组成部分之一,包含了客户端请求信息标示等重要信息。常见的请求头信息:

2.3.4、响应头 response header

服务器正常处理了需要操作的业务之后,就会以响应的方式返回给客户端浏览器对应的数据,响应对象本身就会包含对于响应数据内容的描述信息。常见的响应头信息:

2.3.5、HTTP响应状态码

状态码由三位数字组成,第一个数字定义了响应的类别,有五种情况:

编码 描述
200 请求已成功,请求所希望的响应头或数据体将随此响应返回。
400 客户端请求有语法错误,不能被服务器所理解
403 服务器收到请求,但是拒绝提供服务
404 请求资源不存在,eg:输入了错误的URL
500 服务器发生不可预期的错误

and so so

2.4、网络数据抓包

进行网络爬虫程序开发之前,首先针对网络数据进行定位分析非常重要,对于网络数据的定位处理通常使用抓包工具进行操作,常用的抓包工具如浏览器F12工具、Fiddler、wireshark等等,在爬虫处理过程中,使用较多的是F12网络工具和Fiddler。

上一篇 下一篇

猜你喜欢

热点阅读