大数据 爬虫Python AI Sqlpython笔记

爬虫——Requests库简单入门

2018-08-12  本文已影响7人  weifeng_genius

GET请求:

import requests
date = {'key':'value'}
r = requests.get(url,params=date) #params地内容一般是网址后面`?`后面地参数,比如搜索内容之类的~

得到一个Response对象,用r.content得到二进制文件,r.text得到文本文件,r.headers得到响应头。
除此之外还有很多可选参数,比如timeout设置超时;proxies设置代理。

POST请求:

import requests
postdate = {'key':'value'}
r = requests.post(url,date = postdate)

爬取一般界面的框架:

#获取HTML信息
def GetHtml(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}  
        r = requests.get(url, timeout=5, headers = kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text    #看情况要返回什么。
    except:
        print('爬取失败')

Cookies

1.自定义Cookie值发送出去:

headers = dict(...)
cookies = dict(…)
r = requests.get(url, headers = headers, cookies = cookies)

2.自动处理Cookies的方式:Session

data = {'username':un,
        'password':pw,
        }
session = requests.Session()
#POST需要找到action触发的网页,而不是原来网页。
res = session.post(url+'/action.php?act=Login',data = data,headers = my_header)
#到此完成登陆,session保留cookies等信息。
res2 = session.get(url)
# 后面都用创建的会话来操作。
上一篇 下一篇

猜你喜欢

热点阅读