Python爬虫第三天：正则复习及Xpath

2018-10-16 本文已影响0人 Davis_hang

内容简述:

一:正则

二:Xpath

一:正则复习

find、rfind、replace

字符串处理函数只能处理固定的字符串baby hello

不能处理一类字符串，通过正则表达式来进行处理

正则规则：

单字符：. [abc] \d \D \w \W \s \S

数量修饰：* + ? {m} {m,} {m,n}

边界修饰^ $ \b(词边界) \B（非词边界）

子模式 (.*)

贪婪模式

<div>呵呵<div>哈哈</div>嘿嘿</div>

'

.*

'

懒惰匹配.*?.+?

修饰模式

re.S 单行模式 re.M 多行模式 re.I 忽略大小写

【正则复习示例】

【正则批量提取图片链接并下载示例-糗事百科图片】

https://www.qiushibaike.com/pic/page/

二:xpath(参考w3c)

【注】返回的是一个列表，列表中都是对象，记得通过下标进行筛选

什么是xmlhttp://www.w3school.com.cn/xml/

什么是xpath

XPath使用路径表达式在 XML 文档中进行导航

//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置

. 选取当前节点

@ 选取属性

打开谷歌浏览器，安装xpath插件，然后使用xpath插件按ctrl + shift + x

属性定位：根据属性查找标签

层级定位：一级一级查找

索引定位：【注】下标从1开始--网上html

查找id是maincontent的div下面的h1节点

//div[@id="maincontent"]/h1

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

逻辑运算//div[@id="head" and@class="s_down"]

模糊匹配

查找所有的div，id中有he的div

//div[contains(@id, "he")]

查找所有的div，id中以he开头的div

//div[starts-with(@id, "he")]

查找所有的div，id中以he结尾的div

//div[ends-with(@id, "he")]

取文本

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/text()

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

obj.text 将内容获取到

取属性

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/@href

安装模块 lxml库

这个库是解析html的库，主要就是解析和提取数据

pip切换为国内源

http://www.jb51.net/article/98401.htm

pip3 install lxml 安装好

【注】pip安装包的时候，要记得将fiddler关闭

三:程序中使用xpath

from lxml import etree

d_etree = etree.parse('本地html')

d_etree = etree.HTML('网上html字符串(也可以是字节类型)')

d_etree.xpath('xpath路径') 返回的是一个列表

获取到节点对象之后obj obj.xpath('xpath路径')

示例:抓取站长素材部分高清图片

站长素材http://sc.chinaz.com/

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv_2.html

注意懒加载问题

练习: 抓取糗事百科-文字【写入**.json】

https://www.qiushibaike.com/text/

注意url的拼接和etree对象的另外用法和除去换行

上一篇下一篇

猜你喜欢

热点阅读