python爬虫——数据获取Xpath

2018-11-24  本文已影响0人  命运丿

*准备工作

*.结构化数据

具备有一定的结构,由于定义的规则的数据模型,统称为结构化数据
如:数据进行格式化展示的html文档中的数据、数据进行格式化传输的xml文档中的数据、数据进行格式化整理的Excel表格中的数据等等都是结构
因为结构化数据具有预定义规则的数据模型,所以可以被按照路径进行解析
爬虫采集的大都是网络上的网页数据,就是常见的两种数据格式进行分析【html网页文档数据、xml数据文档】

*.Lxml下载安装

官方网站: https://lxml.de

下载安装:pypi 下载地址 https://pypi.org/project.lxml/#files
注意:下载离线包时切记注意安装依赖关系【依赖的python平台版本和操作系统平台】

命令安装方式:
打开windows的命令行 or Unix / liunx 的shell窗口
通过包管理命令安装:pip install lxml

1、Lxml

通过Lxml有两种非常友好的数据筛选提取方式

编程操作步骤如下

  • 爬虫采集到网页数据
  • 将网页文本数据、转换结构化对象
  • 通过xpath语法 / css语法提取数据
  • 进行数据的分析整合

2、Lxml—Xpath基本语法

xpath基本语法.png
上一篇下一篇

猜你喜欢

热点阅读