xpath

2018-12-25  本文已影响0人  紫弟

爬虫的提取有三种方式,xptah(基本够用),re(正则),字符串方法

使用xpath来提取数据

from lxml import etree

html = etree.parse('hello.html')

#返回的是一个列表
name = html.xpath("//tr[1]//a[@class='ma_h1']/@onclick")

路径表达式 结果
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。

函数:
1.contains (): //div[contains(@id,'in')] ,表示选择id中包含有’in’的div节点
2.starts-with(): //div[starts-with(@id,'in')] ,表示选择以’in’开头的id属性的div节点

上一篇 下一篇

猜你喜欢

热点阅读