requests-html校验页面链接可用性

2021-08-02  本文已影响0人  阿尔卑斯_

1、安装requests-html

pip install requests-html

2、代码块


# 引入requests-html

import requests_html

# 获取页面

html= requests_html.HTMLSession().get('https://www.baidu.com')

# 获取页面全部的链接

url= html.html.absolute_links

# 遍历页面全部链接

for Url in url:

    # 判断url是不是一个链接
    if('https://' in Urlor 'http://' in Url):

            # 获取当前链接页面

             url= requests_html.HTMLSession().get(Url)

             if(url.ok):

                    # 页面可访问就跳过

                    continue

              else:

                    # 页面不能访问就把错误url打印出来

                    print("不能访问\t"+Url)

    else:

            print('不是链接'+Url)

注:(最好设置代理或者连上自己的热点)部分网页https://beian.miit.gov.cn校验不通过,换成自己的热点就能校验通过。

上一篇下一篇

猜你喜欢

热点阅读