Python爬虫理论知识

2019-01-27  本文已影响3人  杰伊_约翰

基本流程

1.分析网站,寻找目标url

2.分析目标url参数(get/post)
(1)get请求参数部分:把?后面的参数写在字典中,然后使用parse.urlencode(字典参数),得到了url编码格式的字符串

(2)post请求参数部分:处理表单数据,将表单数据放在字典中,使用parse.urlencode(字典参数),得到了url编码格式的字符串,
最后使用encode方法将字符串转为bytes类型。

3.发起请求
(1)设置请求头,添加UA(cookie,referer)
(2)实例化一个Request对象(request.Request)
(3)根据实例化的Request对象,使用request.urlopen()方法发起请求

4.处理相应结果
(1)Ajax请求得到的一般是json数据,使用json模块处理使用json.loads将json字符串,转为python数据类型
(2)对于非结果化数据(数据在html页面中),使用re正则模块处理提取处理(xpath,BeautifulSoup,pyquery)
(3)如果还有其他url发起请求,则继续发起请求

5.数据持久化
(1)文件存储(json,csv,txt)
(2)数据库存储(mysql,mongodb,redis)

上一篇下一篇

猜你喜欢

热点阅读