大学生活读书想法

网络爬虫（一)

2019-05-07 本文已影响24人 zhangxiaohao

网络爬虫是一种程序，通过代码运行模拟浏览器上网，去网站（网页)上抓取数据。

爬虫大约分三种:

通用爬虫: 获取相关页面整页数据。
聚焦爬虫:根据所需抓取页面指定的数据。
增量爬虫:检测到网页上数据有更新时,获取当前更新过的数据。

robots 协议

网站中往往声明允许爬取那部分数据、不允话爬取那些数据的授权，这些授权写在robots.txt中，称为robots协议。

需要了解的http与https协议中的几点知识。

http协议:

请求头 request headers

user-agent:请求载体的身份标识。
connect:请求完毕后，是断开还是保持连结。

响应头 response headers

content-type:服务器响应后发送给客户端的数据类型。

https协议:
该协议是安全的http协议，顾名思义就是在http协议上加上了安全协议。
https采取得是证书密钥加密方式。

加密方式有三种:
1.对称密钥加密。
2.非对称密钥加密。
3.证书密钥加密。

说明:
两种协议包含的请求头、请求体、响应头、响应体每一类型都包含很多属性，我们学爬虫只需掌握user-agent、connect、content-type等属性就可以。

上一篇下一篇

猜你喜欢

热点阅读