Python爬虫大数据 爬虫Python AI SqlPython爬虫作业

第二篇爬虫之基础XPath模块和lxml类库

2017-11-19  本文已影响188人  博行天下

简介:XPath将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素,首先了解下XML文档,熟悉XML结构,同时还需要了解HTML DOM 树

1. XML的节点关系
2. XPath的选取节点
表达式 描述
/ 从根节点选取
2 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
@class 选取名为 class 的所有属性
* 匹配任何元素节点
@* 匹配任何属性节点
node 匹配任何类型的节点
//book/title //book/price 选取 book 元素的所有 title 和 price 元素
3. lxml库的使用
1. #利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 

# 按字符串序列化XML文档
result = etree.tostring(html) 

print(result)
2. from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = html.xpath('//li')  # 获取所有的 <li> 标签
result = etree.tostring(html, pretty_print=True)

print(result)
上一篇 下一篇

猜你喜欢

热点阅读