爬虫3
2018-11-23 本文已影响0人
山野过客
xpath
动态加载:使用json串转换
静态页面:使用正则,xpath
结构化数据:先有结构,在有数据 json path
非结构化数据:先有数据,再有结构 正则,xpath
什么是xpath: 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
什么是xml:是传输数据而并非显示数据
xpath 语法的目的,找到节点,提取信息
xpath 语法
使用xpath 语法提取数据
什么是xpath: 是一门在 XML 文档中提取信息数据的语言,可以用来在xml文档中对元素(标签)的属性进行遍历
xml:是一个可扩展的标记语言,语法和html相像,里面的节点可以自己定义,被设计的目的用来进行数据的传输和保存
安装lxml: pip3 install lxml
以起点中文网为例
notename:节点:查找出html中标签名为notname的节点
/ 表示从根节点的地方开始查找,(相对性的)
// 表示从任意位置匹配出你想要的节点
. 表示选取当前节点
.. 表示选取当前节点的父节点
@ 表示选择属性
text() 表示取标签文本内容
notename[1]:表示标签名为的一个的节点
notename[last()]:表示取最后一个
notename[last()-1]:表示取倒数第二个