二刷爬虫—BeautifulSoup

2018-07-17 本文已影响0人 zhangyutong_dut

Beautiful Soup是python官方的一个解析库，提供了许多方法，感觉用起来比较方便顺手

一般使用第三方库lxml来解析HTML文件

prettify() 以标准的缩进格式输出

经选择器选择之后，类型均为bs4.element.Tag类型

name属性获取节点名称

attrs属性获取节点属性，返回为字典类型

string属性获取节点包含的文本内容

contents属性获取直接子节点，返回列表形式

children属性获取直接子节点，返回生成器类型

descendants属性获取所有的子孙节点，返回生成器类型

parent属性获取直接父节点

parents属性获取所有的祖先节点，返回生成器类型

next_sibling 和 previous_sibling 属性获取下一个/上一个兄弟节点

next_siblings 和 previous_siblings 属性获取所有之后的/之前的兄弟节点

find_all()

find()

select() 用CSS选择器进行选择

get_text() 获取文本