大学生活读书想法

网络爬虫(一)

2019-05-07  本文已影响24人  zhangxiaohao

网络爬虫是一种程序,通过代码运行模拟浏览器上网,去网站(网页)上抓取数据。

爬虫大约分三种:
  1. 通用爬虫: 获取相关页面整页数据。
  2. 聚焦爬虫:根据所需抓取页面指定的数据。
  3. 增量爬虫:检测到网页上数据有更新时,获取当前更新过的数据。
robots 协议

网站中往往声明允许爬取那部分数据、不允话爬取那些数据的授权,这些授权写在robots.txt中,称为robots协议。

需要了解的http与https协议中的几点知识。
  1. http协议:

user-agent:请求载体的身份标识。
connect:请求完毕后,是断开还是保持连结。

content-type:服务器响应后发送给客户端的数据类型。

  1. https协议:
    该协议是安全的http协议,顾名思义就是在http协议上加上了安全协议。
    https采取得是证书密钥加密方式。

加密方式有三种:
1.对称密钥加密。
2.非对称密钥加密。
3.证书密钥加密。

  1. 说明:
    两种协议包含的请求头、请求体、响应头、响应体每一类型都包含很多属性,我们学爬虫只需掌握user-agent、connect、content-type等属性就可以。
上一篇 下一篇

猜你喜欢

热点阅读