爬虫基本原理

2021-04-01 本文已影响0人 Demi_ec2a

1、爬虫的基本流程：

（1）发起请求：向目标的http站点发request，请求可以包含headers等信息，等待服务器响应

（2）获取响应内容：会得到一个response，获取到页面内容，类型可能有HTML,JSON，二进制等类型

（3）解析内容：比如用正则表达式等

（4）保存数据

2、request：是请求

请求方式：主要有get和post两种类型，还有head，put，delete，options等

请求的URL：统一资源定位符

请求头：头部信息：User-Agent，host，Cookies等

请求体：额外鞋带的数据，如表单数据等

3、response响应

响应状态：有多种，如200标识成功，301表示跳转，404找不到页面，502服务器错误等

响应头：如内容类型，内容长度，服务器信息等

响应体：包含了请求资源的内容，如HTML，图片等

4、抓取数据类型：

（1）如网页：则是HTML或者Json格式

（2）如果是图片或视频，则是二进制格式，保存为图片或者视频

5、网页解析方式：

直接处理：一般请求回来的是字符串，可以简单处理后直接保存

Json解析：AJAX请求回来的一般是json字符串，就需要提取出需要的数据

正则表达式

beautifulSoup

PyQuery

XPath

6、抓到的网页和浏览器中的不一样：

可能原因是内容是以链接形式存在的，需要找到链接真正的内容