xPath与html

2019-12-22  本文已影响0人  南国铃子

xPath 是一种html和xml的查询语言,能在其树状结构中寻找节点。

LXML安装:pip install lxml

——xPath使用-----------------------------------------------------------------------------------

获取文本:

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../text()

获取属性值

//标签1[@属性1="属性值1"]/标签2[@属性2="属性值2"]/.../@属性n

eg:-------------------------------------------------------------------

from lxml import html

def parse():

"""将html文件中内容 使用xpath进行提取"""

    #读取文件中的内容

    f =open('./static/index.html', 'r', encoding='utf-8')

    s = f.read()

    selector = html.fromstring(s)

# 解析a 标签内容

    a = selector.xpath('//div[@id="container"]/a/text()')

    print(a[0])

# 解析href属性

    alink = selector.xpath('//div[@id="container"]/a/@href')

    print(alink[0])

    f.close()

if __name__=='__main__':

    parse()

上一篇 下一篇

猜你喜欢

热点阅读