Python爬虫学习(一)

2019-06-12  本文已影响0人  rrrwx

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001#/info 授课老师:嵩天 课程简介:“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。

Requests库的使用:


import requests

r = requests.get(url)

构造一个向服务器请求资源的Request对象(大写)
返回一个包含服务器资源的Response对象

(1)Response对象的属性

r.status_code(200表示连接成功)
r.text(url响应内容)
r.content(响应内容的二进制形式)
r.encoding(从头部预测的编码方式)
r.apparent_encoding(从内容分析的编码方式)
-------r.encoding = r.apparent_encoding

(2)通用框架


import requests

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "wrong connection..."

if __name__ == "__main__":

    this_url = "http://www.baidu.com"

    print(getHTMLText(this_url))

(3)Requests库的主要方法


requests.request()---------基础方法

requests.get(); requests.head(); requests.post(); requests.put(); requests.patch(); requests.delete()

上一篇 下一篇

猜你喜欢

热点阅读