网页解析库BeautifulSoup（八）

2019-07-16 本文已影响2人梦捷者

pip install beautifulsoup4

pip install lxml

soup = BeautifulSoup(html_doc, 'lxml')  # 指定lxml解释器，帮助解析网页以达到获取数据

通过BeautifulSoup库对网页进行分析来提取数据主要是针对Tag（标签）对象来进行的。
Tag对象的方法和属性：
（1）name:每一个Tag对象都有name属性，为标签的名字。
（2）Atributes:在HTML中，Tag可能有多个属性，所以tag属性的取值跟字典相同。
（3）get_text():通过get_text()方法我们可以获取某个Tag（标签）对象下所有的文本内容。

一个节点中是可以包含多个子节点和多个字符串的。例如html节点中包含着head和body节点。

（1）contents和children方法

（2）descendants方法

（3）string和strings方法

如果某个节点中只有一个字符串，那么使用string可以正常将其取出。
而如果某个节点中有多个字符串的时候，BeautifulSoup就无法确定要取出哪个字符串了，这时候需要使用strings。（使用stripped_strings可以将全是空白的行去掉。）

（4）父节点parent和parents

（5）兄弟节点
兄弟节点指的就是父节点相同的节点。（当前节点中所有的父节点都是同一个）

BeautifulSoup还提供了搜索整个文档树的方法find_all()。

通过name搜索，find_all('b')可以直接查找出整个文档树中所有的b标签，并返回列表。
通过属性搜索，我们在搜索的时候一般只有标签名是不够的，因为可能同名的标签很多，那么这时候我们就要通过标签的属性来进行搜索。这时候我们可以通过传递给attrs一个字典参数来搜索属性。

soup.find_all(attrs={'class': 'sister'})

soup.find_all(text="Elsie")

限制查找范围为子节点find_all()方法会默认的去所有的子孙节点中搜索，而如果将recursive参数设置为False，则可以将搜索范围限制在直接子节点中。

soup.html.find_all("title", recursive=False)

通过正则表达式来筛选查找结果在BeautifulSoup中，也是可以与re模块进行相互配合的，将re.compile编译的对象传入find_all()方法，即可通过正则来进行搜索。

 tags = soup.find_all(re.compile("^b"))

在BeautifulSoup中，同样也支持使用CSS选择器来进行搜索。使用select()，在其中传入字符串参数，就可以使用CSS选择器的语法来找到tag对象。
NavigableString
NavigableString的意思是可以遍历的字符串，一般被标签包裹在其中的的文本就是NavigableString格式。
BeautifulSoup对象
BeautifulSoup对象就是解析网页获得的对象
Comment
Comment指的是在网页中的注释以及特殊字符串。