爬虫之BeautifulSoup(二)--遍历标签树
2017-11-10 本文已影响0人
五秋木
遍历标签树
- 下行遍历
.contents讲解
soup.head.contents # 将所有的儿子节点存到列表中
len(soup.head.contents) # 儿子节点数量
soup.head.contents[1] # 获取第二个儿子节点信息
.children迭代
for child in soup.body.children
print(child) 循环遍历
.descendants 子孙节点,也可遍历
- 上行遍历
.parent 节点的父亲节点
标签树的上行遍历
soup = BeautifulSoup(demo,"html.parser")
for parent in soup.a.parents:
if parent is none:(soup的parent无parent节点)
print(parent)
else:
print(parent.name)
- 平行遍历
.next_sibling 返回下一个平行点标签
.previous_sibling 返回上一个平行点标签
.next_siblings 后续所有的平行点标签,迭代类型
.previous_siblings 前序所有的平行点标签,迭代类型
HTML格式化和编码
soup.prettify()