xpath

2018-12-25 本文已影响0人紫弟

爬虫的提取有三种方式，xptah（基本够用），re（正则），字符串方法

使用xpath来提取数据

from lxml import etree

html = etree.parse('hello.html')

#返回的是一个列表
name = html.xpath("//tr[1]//a[@class='ma_h1']/@onclick")

路径表达式结果
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。

函数:
1.contains ()： //div[contains(@id,'in')] ,表示选择id中包含有’in’的div节点
2.starts-with()： //div[starts-with(@id,'in')] ，表示选择以’in’开头的id属性的div节点