爬虫之BeautifulSoup(二)--遍历标签树

2017-11-10  本文已影响0人  五秋木

遍历标签树

  1. 下行遍历
.contents讲解
soup.head.contents   # 将所有的儿子节点存到列表中
len(soup.head.contents)  # 儿子节点数量
soup.head.contents[1]   # 获取第二个儿子节点信息

.children迭代
for child in soup.body.children
    print(child)   循环遍历 
.descendants  子孙节点,也可遍历
  1. 上行遍历
.parent  节点的父亲节点
标签树的上行遍历
soup = BeautifulSoup(demo,"html.parser")
for parent in soup.a.parents:
          if parent is none:(soup的parent无parent节点)
                   print(parent)
          else:
                  print(parent.name)
  1. 平行遍历
.next_sibling    返回下一个平行点标签
.previous_sibling   返回上一个平行点标签
.next_siblings     后续所有的平行点标签,迭代类型
.previous_siblings   前序所有的平行点标签,迭代类型

HTML格式化和编码

soup.prettify()

上一篇下一篇

猜你喜欢

热点阅读