xPath与html
2019-12-22 本文已影响0人
南国铃子
xPath 是一种html和xml的查询语言,能在其树状结构中寻找节点。
LXML安装:pip install lxml
——xPath使用-----------------------------------------------------------------------------------
获取文本:
//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../text()
获取属性值
//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../@属性n
eg:-------------------------------------------------------------------

from lxml import html
def parse():
"""将html文件中内容 使用xpath进行提取"""
#读取文件中的内容
f =open('./static/index.html', 'r', encoding='utf-8')
s = f.read()
selector = html.fromstring(s)
# 解析a 标签内容
a = selector.xpath('//div[@id="container"]/a/text()')
print(a[0])
# 解析href属性
alink = selector.xpath('//div[@id="container"]/a/@href')
print(alink[0])
f.close()
if __name__=='__main__':
parse()