Python 学习笔记 092
本周学习内容 05
本次分享主题
Xpath的学习笔记及相关心得 02
自动爬取网页内容并保存为TXT 04
1.程序流程
1.1请求网页内容,将网页转化为etree格式字符串
.1.1.1 需导入lxml库
import requests
res = requests.get("https://www.dawenxue.net/41556/369381.html") #请求网页内容
#lxml 库 专门用来解析XML语言的库
from lxml import etree
#将网页转为XPath结构
#etree elements tree
res_xpath = etree.HTML(res.text)
#print(type(res_xpath),res_xpath)
1.2 Xpath标签简单解析
#提取网页的标题
#Chrome copy xpath 操作 浏览器支持
#绝对路径的提取
#title标签的绝对路径为html/head/title
res_xpath.xpath("/html/head/title")
#结果输出为 [<Element title at 0xed8a21c188>] 元素标签
#res_xpath.xpath("/html/title") 路径不能错,有错就会报空
res_xpath.xpath("///title")
#省略中间标签为相对路径的提取
res_xpath.xpath("//title")
# // 提取任意子节点
1.3 Xpath标签简单解析 -2
res_xpath.xpath("//a/text()")
#提取所有的a标签 //提取任意标签 + a标签 + 文本解析
#// 后面为标签的名字
1.4 制定标签的属性提取制定的标签
res_xpath.xpath("//a[@href]/text()")
#加中括号[]+@指定属性
哎呀,代码有点多,看的自己都有点儿乱,重新捋捋~
1.这一块介绍了Xpath的基本使用方法,主要从浏览器的F12检查标签中定位到需要提取的元素位置,然后复制出Xpath路径就可以提取出需要的元素了。
2.提取出来的元素,可以加对应的函数进行进一步提取
text() 提取文本
3.筛选及控制
3.1 绝对路径与相对控制 浏览器这就可以做到 不用理解太多
3.2 增加标签名字,提取制定的标签
准确定位
4.提取制定属性的标签
未完待续
2020年1月11日23:39:21