Beautiful Soup

2020-12-10  本文已影响0人  xncode

1、导航 搜索 改变 一个解析树,刨析一个文档以导出你需要的东西
2、自动转换字符编码
3、基于lxml html5lib构建

树的结点的类型:

Tag

name属性 通过.name来获得
其他属性 例如class 通过["class"]来获得
多值属性 例如class返回的是列表

NavigableString

通过tag的string属性来获得
还有很多的 CData , ProcessingInstruction , Declaration , Doctype, Comment是NavigableString的子类

find

通过tag的名称

soup.find_all("title")

通过keyword

soup.find_all(id='link2')
soup.find_all(id=True)
data_soup.find_all(attrs={"data-foo": "value"})

通过class查询

soup.find_all("a", class_="sister")

通过tag中的内容即string来查询

soup.find_all(string="Elsie")

select

上一篇 下一篇

猜你喜欢

热点阅读