Python爬虫理论知识

2019-01-27 本文已影响3人杰伊_约翰

基本流程

1.分析网站，寻找目标url

2.分析目标url参数（get/post）
（1）get请求参数部分：把？后面的参数写在字典中，然后使用parse.urlencode（字典参数），得到了url编码格式的字符串

（2）post请求参数部分：处理表单数据，将表单数据放在字典中，使用parse.urlencode（字典参数），得到了url编码格式的字符串，
最后使用encode方法将字符串转为bytes类型。

3.发起请求
（1）设置请求头，添加UA（cookie，referer）
（2）实例化一个Request对象（request.Request）
（3）根据实例化的Request对象，使用request.urlopen（）方法发起请求

4.处理相应结果
（1）Ajax请求得到的一般是json数据，使用json模块处理使用json.loads将json字符串，转为python数据类型
（2）对于非结果化数据（数据在html页面中），使用re正则模块处理提取处理（xpath，BeautifulSoup，pyquery）
（3）如果还有其他url发起请求，则继续发起请求

5.数据持久化
（1）文件存储（json，csv，txt）
（2）数据库存储（mysql，mongodb，redis）

Python爬虫理论知识

猜你喜欢

热点阅读