网络爬虫与信息提取（二）

2020-03-12 本文已影响0人持之以蘅

爬取网页的通用代码框架

Requests库的异常

image.png

爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timout=30)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ =="_main_":
    url="http://www.baidu.com"
    print(getHTMLText(url))