Python 用BeautifulSoup从HTML网页格式中获
2018-04-27 本文已影响270人
LeeMin_Z
记录一下py4e 课程的 beautiful soup 作业 ,虽然是我写的但其实应该算半原创的。
找到某个网页上的链接。
步骤解析:
- 引入相关库
- 忽略SSL错误
- 打开网站并且引用BS4直接提取相关内容
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import ssl
# Ignore SSL certificate errors
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE
url = input('Enter url - ')
# url = 'http://py4e-data.dr-chuck.net/known_by_Elita.html'
position = int(input('enter position - '))
times = int(input('enter times - '))
for time in range(times):
if time == 0:
openurl = url
else:
openurl = get_urls[position-1]
html = urllib.request.urlopen(openurl, context=ctx).read()
soup = BeautifulSoup(html, 'html.parser')
tags = soup('a')
get_urls = []
for tag in tags:
get_urls.append(tag.get('href', None))
print(get_urls[position-1])
2018.4.27