网络爬虫(一)
2019-05-07 本文已影响24人
zhangxiaohao
网络爬虫是一种程序,通过代码运行模拟浏览器上网,去网站(网页)上抓取数据。
爬虫大约分三种:
- 通用爬虫: 获取相关页面整页数据。
- 聚焦爬虫:根据所需抓取页面指定的数据。
- 增量爬虫:检测到网页上数据有更新时,获取当前更新过的数据。
robots 协议
网站中往往声明允许爬取那部分数据、不允话爬取那些数据的授权,这些授权写在robots.txt中,称为robots协议。
需要了解的http与https协议中的几点知识。
- http协议:
- 请求头 request headers
user-agent:请求载体的身份标识。
connect:请求完毕后,是断开还是保持连结。
- 响应头 response headers
content-type:服务器响应后发送给客户端的数据类型。
- https协议:
该协议是安全的http协议,顾名思义就是在http协议上加上了安全协议。
https采取得是证书密钥加密方式。
加密方式有三种:
1.对称密钥加密。
2.非对称密钥加密。
3.证书密钥加密。
- 说明:
两种协议包含的请求头、请求体、响应头、响应体每一类型都包含很多属性,我们学爬虫只需掌握user-agent、connect、content-type等属性就可以。