爬虫基本原理
2021-04-01 本文已影响0人
Demi_ec2a
1、爬虫的基本流程:
(1)发起请求:向目标的http站点发request,请求可以包含headers等信息,等待服务器响应
(2)获取响应内容:会得到一个response,获取到页面内容,类型可能有HTML,JSON,二进制等类型
(3)解析内容:比如用正则表达式等
(4)保存数据
2、request:是请求
请求方式:主要有get和post两种类型,还有head,put,delete,options等
请求的URL:统一资源定位符
请求头:头部信息:User-Agent,host,Cookies等
请求体:额外鞋带的数据,如表单数据等
3、response响应
响应状态:有多种,如200标识成功,301表示跳转,404找不到页面,502服务器错误等
响应头:如内容类型,内容长度,服务器信息等
响应体:包含了请求资源的内容,如HTML,图片等
4、抓取数据类型:
(1)如网页:则是HTML或者Json格式
(2)如果是图片或视频,则是二进制格式,保存为图片或者视频
5、网页解析方式:
直接处理:一般请求回来的是字符串,可以简单处理后直接保存
Json解析:AJAX请求回来的一般是json字符串,就需要提取出需要的数据
正则表达式
beautifulSoup
PyQuery
XPath
6、抓到的网页和浏览器中的不一样:
可能原因是内容是以链接形式存在的,需要找到链接真正的内容