Python

网页解析库BeautifulSoup(八)

2019-07-16  本文已影响2人  梦捷者

一、BeautifulSoup的简介

pip install beautifulsoup4

二、BeautifulSoup使用的简单例子

三、使用BeautifulSoup时指定解析器

pip install lxml
soup = BeautifulSoup(html_doc, 'lxml')  # 指定lxml解释器,帮助解析网页以达到获取数据

四、网页中的节点对象

1、Tag对象
2、Tag对象属性方法的使用

一个节点中是可以包含多个子节点和多个字符串的。例如html节点中包含着head和body节点。

(1)contents和children方法

(2)descendants方法

(3)string和strings方法

(4)父节点parent和parents

(5)兄弟节点
兄弟节点指的就是父节点相同的节点。(当前节点中所有的父节点都是同一个)

3、find_all()方法和遍历文档树

BeautifulSoup还提供了搜索整个文档树的方法find_all()。

soup.find_all(attrs={'class': 'sister'})
soup.find_all(text="Elsie")
soup.html.find_all("title", recursive=False)
 tags = soup.find_all(re.compile("^b"))
4、CSS选择器
上一篇 下一篇

猜你喜欢

热点阅读