Xpath和BS4操作

2018-01-15  本文已影响1188人  不一样的丶我们

Xpath

基于index.html的查询操作

代码 作用
html 查询所有html的子节点
/html 查询根节点下的html节点

/->根节点~文档对象模型~document

代码 作用
//div 模糊匹配路径,查询所有路径下出现的div节点
//div/* *模糊匹配节点,查询所有路径下div的子节点
//div[@class] 查询包含class属性的所有div节点
//div[@class="content"] 查询包含class属性并且值为content的div节点

Beautifulsoup4

# 四种种安装方式
pip install beautifulsoup4
easy_install beautifulsoup4
# 下载tar.gz包 pip setup.py install
# 拷贝别人的bs4文件夹,知己复制到site-pakages/目录下即可

# 从程序中引入bs4
from bs4 import BeautifulSoup

# 从网页文件中直接加载
soup = BeautifulSoup(open("index.html"), "lxml")

print(soup)

三种爬取方式的对比

re xpath bs4
安装 内置 第三方 第三方
语法 正则 路径匹配 面向对象
使用 困难 较困难 简单
性能 最高 适中 最低
上一篇 下一篇

猜你喜欢

热点阅读