Python爬虫学习（一）

2019-06-12 本文已影响0人 rrrwx

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001#/info 授课老师：嵩天课程简介：“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。

Requests库的使用：


import requests

r = requests.get(url)

构造一个向服务器请求资源的Request对象（大写）
返回一个包含服务器资源的Response对象

（1）Response对象的属性

r.status_code(200表示连接成功)
r.text（url响应内容）
r.content（响应内容的二进制形式）
r.encoding（从头部预测的编码方式）
r.apparent_encoding（从内容分析的编码方式）
-------r.encoding = r.apparent_encoding

(2)通用框架


import requests

def getHTMLText(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "wrong connection..."

if __name__ == "__main__":

    this_url = "http://www.baidu.com"

    print(getHTMLText(this_url))

(3)Requests库的主要方法


requests.request()---------基础方法

requests.get(); requests.head(); requests.post(); requests.put(); requests.patch(); requests.delete()

Python爬虫学习（一）

猜你喜欢

热点阅读