pyhton爬虫基础学习-requests库

2018-06-20  本文已影响0人  nice生活

导语:

requests是python爬虫的最为常用的方式之一,requests实现http请求非常简单,但是requests库是第三方库需要进行安装,可以通过pip3下载:pip3 install requests requests中文文档

requests库的7个主要方法:

方法 说明
requests.request() 构造一个请求,是以下请求的基本方法
requests.get() 获取html网页的主要方法,对应http的get
requests.head() 获取html网页头信息的方法,对应http的head
requests.post() 向html页面提交post请求的方法,对应http的post
requests.put() 向html页面提交put请求的方法,对应http的put
requests.patch() 向html页面提交局部修改的请求,对应http的patch
requests.delete() 向页面提交删除请求,对应http的delete

调用这些方法会返回一response对象,response对象的一些常用方法:
response.headers #响应头
response.status_code #响应码
response.text #服务器返回的文本内容
response.content #返回内容的二进制形式
response.raise_for_status #异常处理 响应码不是200就会触发requests.HTTPError
response.encoding #通过charset猜测返回内容的编码形式 没有就默认为 iso-8859-1
response.apparent_encoding #通过检查返回内容得到编码形式

requests实例:

import requests


def get_html_text(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
    except:
        return "异常"
    return r.text


if __name__ == '__main__':
    url = "http://www.baidu.com"
    print(get_html_text(url)[:1000])
上一篇下一篇

猜你喜欢

热点阅读