爬虫基本原理

2019-01-30  本文已影响0人  ivan_cq

1、发起请求
通过http库向目标站点发起请求,发送一个Request,请求可以包含额外的headers等的信息,等待服务器响应。
2、获取响应内容
服务器正常响应的话会得到一个reponse,reponse的内容便是所要获取的页面的内容,类型可能是HTML、json字符串,二进制数据如图片视频等。
3、解析网页内容
得到的内容可能是HTML格式可以用正则表达式、网页解析库进行解析。可能是json格式,可以直接转为json对象解析,可能是二进制数据,可以保存做进一步处理。
4、保存数据
保存成文本也可以存到数据库,或者保存为特定格式。


使用post请求,请求参数不在url里面,请求体在新的fromdata里,url里不包含信息


2、统一资源定位符url
一个图片、一个视频都可以用url唯一指定。

3、请求头
包含比较重要的配置信息。如user-agent、host、cookies等信息。


4、请求体,get形式没有请求体。
post以fromdata形式提交请求体。

1、响应状态
状态码:
200正常
301以上跳转
404找不到资源
502以上,服务器处理错误

2、响应头
键值对的Reponse Headers
如内容类型、内容长度、服务器信息、设设置cookies等等。
3、响应体
最主要的部分,包含了请求资源的内容,如网页HTML,图片,二进制数据等。



上一篇下一篇

猜你喜欢

热点阅读