xpath
2018-12-25 本文已影响0人
紫弟
爬虫的提取有三种方式,xptah(基本够用),re(正则),字符串方法
使用xpath来提取数据
from lxml import etree
html = etree.parse('hello.html')
#返回的是一个列表
name = html.xpath("//tr[1]//a[@class='ma_h1']/@onclick")
路径表达式 结果
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。
函数:
1.contains (): //div[contains(@id,'in')] ,表示选择id中包含有’in’的div节点
2.starts-with(): //div[starts-with(@id,'in')] ,表示选择以’in’开头的id属性的div节点