4.爬虫

2020-09-07  本文已影响0人  info_gu

1.网页数据的采集与urllib库

image.png

urllib自带标准库

#coding=utf-8
from  urllib import request
url="http://www.baidu.com"
response=request.urlopen(url,timeout=1)
print(response.read().decode('utf-8'))

库bs4

from bs4 import BeautifulSoup

html_doc = """
    <html>
<head>
<meta charset="utf-8">

<title>呵呵</title>

</head>

<body>
<!--  网页控件元素,类似按钮/图片/文章什么的都写在这里  -->
</body>

</html>

"""

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())

#获取网页title
print(soup.title)
#获取title的内容
print(soup.title.string)

print(soup.body)
上一篇 下一篇

猜你喜欢

热点阅读