【Python】解析网页BeautifulSoup工具包安装及介

2018-08-26 本文已影响28人 Natsuka

基础回顾

网页HTML的特点：标记语言/标签
requests的作用及返回结果

BeautifulSoup

BeautifulSoup 提供了一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，排除文档没有指定一个编码方式，这时，BeautifulSoup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
BeautifulSoup已经成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同解析策略或强劲的速度。
BeautifulSoup是Python的一个库，主要功能是从网页抓取数据。

BeautifulSoup的安装

cmd中进行安装，直接输入（附带把lxml安装好）：
pip install BeautifulSoup4
pip install lxml

BeautifulSoup支持的解释器

BeautifulSoup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，默认使用Python默认的解析器，但推荐使用lxml解析器，更强大，速度更快。

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, 'html.parser'）	（1）Pyhton的内置标准库（2）执行速度适中（3）文档存储能力强	（1）Python2.7.3 or 3.2.2前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, 'lxml'）	（1）执行速度快（2）文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup, ['lxml','xml']）BeautifulSoup(markup, 'xml')	（1）速度快（2）唯一支持XML的解析器	需要安装C语言库
htmlSlib	BeautifulSoup(markup, 'htmlSlib')	（1）最好的容错性（2）以浏览器的方式解析文档（3）生成HTMLS格式的文档	（1）速度慢（2）不依赖外部扩展

BeautifulSoup模块的导入和基本应用

解析对象：https://news.qq.com/a/20170205/019837.htm
解析器：lxml

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
print(r)
print(r.text)
print(type(r.text))

格式化输出：按照html的缩进方式输出结果soup.prettify()

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup)
print(soup.prettify())

提取html的标签Tag
该方法只提取所哟内容中第一个符合要求的标签。

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.head)
print(soup.title)
print(soup.a)
print(soup.p)

print(type(soup.title))

Tag的两个属性：name和attrs。
soup.name较为特殊，它的name即为[document]，对于其他内容标签，输出的值便为标签本身的名称。

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.title.name)
print(type(soup.title.name))
print(soup.a.name)
print(soup.p.name)

print(soup.title.attrs)
print(type(soup.title.attrs))
print(soup.a.attrs)
print(soup.p.attrs)

# 查看特殊属性
print(soup.a.attrs['style'])

提取html的标签的文字 NavigableString-可以遍历的字符串

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.title.string)
print(type(soup.title.string))
print(soup.a.string)
print(soup.p.string)

print(soup.head)
print(soup.head.string)
print(soup.head.text) # text 直接输出str，并且可以不仅仅只针对单个标签

分析文档树

直接子节点
.content返回列表 .children返回生成器

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.head.contents)
print(type(soup.head.contents))

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

#print(soup.head.children)
print(type(soup.head.children))
for i in soup.head.chlidren:
    print(i)

所有子孙节点
.descendants生成器

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.body.descendants)
print(type(soup.body.descendants))
for i in soup.body.descendants:
    print(i)

父节点
.parent

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.title)
print(type(soup.title))
print(soup.title.parent)
print(type(soup.title.parent))
print(soup.title.parent.name)
print(soup.title.parent.attrs)

全部父节点
.parents生成器

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

a = soup.body.a

for i in a.parents:
    print(i.name)

*兄弟节点
.next_silbling .previous_silbling
兄弟节点可以理解为和本节点在统一级的节点

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.p.next_silbling)

print(soup.p.previous_silbling)

全部兄弟节点
.next_silblings .previous_silblings生成器

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

for i in soup.p.next_silblings:
    print(i)

前后节点
.next_element .previous_element
与兄弟界节点不同，并不针对与兄弟节点，而是再有节点，部分层次

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.head.previous_element.name)
print(soup.head.previous_element)

遍历所有标签的方法

find_all()
搜索当前tag的所有tag子节点，并判断是否符合过滤器的条件
find_all(name, attrs, recursive, string, **kwargs)

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.find_all('title'))
print(soup.find_all('meta'))

print(soup.find_all('img'))
print(soup.find_all('img','sspLogo'))
print(soup.find_all('img',limit=2)) # limit参数，返回几个。
print(soup.find_all('img',height='20')) # keyword参数，高度为20的图。

keyyword参数：用正则化re包来爬去特定网页
先不讨论正则，可以直接先用'href=re.compile('...')来查询.
soup.find_all返回的是列表，但其中每个元素都是tag，可以提取text、attrs等。

import requests
import re
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

for i in soup.find_all('a',href=re.compile('news.qq.com/a/201605')):
    print(i,type(i))
    print(i.text)
    print(i.attrs['href'])
    print('\n')

find()查找一个结果，并且查找第一个
find(name, attrs,recursive,string,**kwargs)

import requests
from bs4 import BeautifulSoup

r = requests.get(url='https://news.qq.com/a/20170205/019837.htm')
soup = BeautifulSoup(r.text,'lxml')

print(soup.find('a'))
print(type(soup.find('a')))
print(soup.find('a').text)

【Python】解析网页BeautifulSoup工具包安装及介

基础回顾

BeautifulSoup

BeautifulSoup的安装

BeautifulSoup支持的解释器

BeautifulSoup模块的导入和基本应用

分析文档树

遍历所有标签的方法

猜你喜欢

热点阅读