xpath

2019-02-24  本文已影响0人  清酒金杯空对月

什么是xpath?

xpath (lxml Path language)是一门在xml文档中查找信息的语言,可以遍历和搜索,xml文档中的文本和属性,同样适用html

什么是xml?

是一门可扩展的编辑语言,是为了传输数据,内部的标签可自定义

'''xml的结构类似于HTML
   安装lxml库:pip3 install lxml

xpath语法的路径表达式(常用)

nodename(节点名称)------获取此节点下所有的子节点
/                 -------获取当前节点下的直接子节点
//              -------获取当前节点下的节点,不考虑节点位置
.               -------获取当前节点
..             -------获取当前节点的父节点
@+属性名--------获取属性

bs4_usod(Beautifulsoup4)?

是python的一个xml和html的解析器,目的是从xml或HTML中提取数据
'''安装:pip3  install  beautifulsoup4
beautifulsoup4比xpath解析数据要慢,因为          beautifulsoup4载入的是整个html文档

方法

findall()查找所以节点   findall()查找单个节点    

支持CSS选择器
获取标签属性写法:p['class']或p.attrs['class']
获取标签文本:p.get_text()或p.string
注意:使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
‘HTML.parser’是python内置的解析器    
参数作用:
name=None ------设置要获取的节点名称
attrs={}  ------是一个字典类型,设置标签的属性
limit=None-----限制返回的条数
text(字符串) 查找符合text文本的字符串,并返回。
上一篇下一篇

猜你喜欢

热点阅读