二刷爬虫—BeautifulSoup
2018-07-17 本文已影响0人
zhangyutong_dut
Beautiful Soup是python官方的一个解析库,提供了许多方法,感觉用起来比较方便顺手
一般使用第三方库lxml来解析HTML文件
prettify() 以标准的缩进格式输出
经选择器选择之后,类型均为bs4.element.Tag类型
name属性获取节点名称
attrs属性获取节点属性,返回为字典类型
string属性获取节点包含的文本内容
contents属性获取直接子节点,返回列表形式
children属性获取直接子节点,返回生成器类型
descendants属性获取所有的子孙节点,返回生成器类型
parent属性获取直接父节点
parents属性获取所有的祖先节点,返回生成器类型
next_sibling 和 previous_sibling 属性获取下一个/上一个兄弟节点
next_siblings 和 previous_siblings 属性获取所有之后的/之前的兄弟节点
find_all()
find()
select() 用CSS选择器进行选择
get_text() 获取文本