爬虫学习(3)—初学者常用的小技巧

2019-12-30  本文已影响0人  罗汉堂主

寻找登录的post地址

定位想要的js

获取cookie

import requests

# 将cookie-jar转为字典
response = requests.get('http://www.baidu.com') 
print(requests.utils.dict_from_cookiejar(response.cookies))

# 将字典转为cookie-jar
print(requests.utils.cookiejar_from_dict({'a': '1'})

url地址的编、解码

# url解码
url = "https%3a%2f%2ftieba.baidu.com%2ff%3fkw%3d%e6%9d%8e%e6%af%85"
requests.utils.unquote(url)

# url编码
url = "https://tieba.baidu.com/f?kw=李毅"
requests.utils.quote(url)

忽视证书验证

import requests

# 忽视证书错误,一般是在请求https时候,加个参数就可以
requests.get('https://www.12306.cn/mormhweb/', verify=False)

设置超时

import requests

# 设置超时10s,如果10s内请求不成功则报错
requests.get(url, timeout=10)

配合状态码判断是否请求成功

import requests

response = requests.get(url)
assert response.status_code == 200
上一篇下一篇

猜你喜欢

热点阅读