爬虫基本原理

2021-04-01  本文已影响0人  Demi_ec2a

1、爬虫的基本流程:

(1)发起请求:向目标的http站点发request,请求可以包含headers等信息,等待服务器响应

(2)获取响应内容:会得到一个response,获取到页面内容,类型可能有HTML,JSON,二进制等类型

(3)解析内容:比如用正则表达式等

(4)保存数据

2、request:是请求

请求方式:主要有get和post两种类型,还有head,put,delete,options等

请求的URL:统一资源定位符

请求头:头部信息:User-Agent,host,Cookies等

请求体:额外鞋带的数据,如表单数据等

3、response响应

响应状态:有多种,如200标识成功,301表示跳转,404找不到页面,502服务器错误等

响应头:如内容类型,内容长度,服务器信息等

响应体:包含了请求资源的内容,如HTML,图片等

4、抓取数据类型:

(1)如网页:则是HTML或者Json格式

(2)如果是图片或视频,则是二进制格式,保存为图片或者视频

5、网页解析方式:

直接处理:一般请求回来的是字符串,可以简单处理后直接保存

Json解析:AJAX请求回来的一般是json字符串,就需要提取出需要的数据

正则表达式

beautifulSoup

PyQuery

XPath

6、抓到的网页和浏览器中的不一样:

可能原因是内容是以链接形式存在的,需要找到链接真正的内容

上一篇 下一篇

猜你喜欢

热点阅读