python爬虫——数据获取Xpath

2018-11-24 本文已影响0人命运丿

*准备工作

了解爬虫的数据处理体系结构

爬虫数据处理结构图.png
处理数据的软件准备
采集到的结构化数【如html网页文档数据】
python开发环境
lxml第三方库
结构化数据基本理论：DOM模型

*.结构化数据

具备有一定的结构，由于定义的规则的数据模型，统称为结构化数据
如：数据进行格式化展示的html文档中的数据、数据进行格式化传输的xml文档中的数据、数据进行格式化整理的Excel表格中的数据等等都是结构
因为结构化数据具有预定义规则的数据模型，所以可以被按照路径进行解析
爬虫采集的大都是网络上的网页数据，就是常见的两种数据格式进行分析【html网页文档数据、xml数据文档】

*.Lxml下载安装

官方网站： https://lxml.de

下载安装：pypi 下载地址 https://pypi.org/project.lxml/#files
注意：下载离线包时切记注意安装依赖关系【依赖的python平台版本和操作系统平台】

命令安装方式：
打开windows的命令行 or Unix / liunx 的shell窗口
通过包管理命令安装：pip install lxml

1、Lxml

通过Lxml有两种非常友好的数据筛选提取方式

xpath语法【重点】
css语法【熟练】

编程操作步骤如下

爬虫采集到网页数据

将网页文本数据、转换结构化对象

通过xpath语法 / css语法提取数据

进行数据的分析整合

2、Lxml—Xpath基本语法

xpath基本语法.png