大数据学习笔记之爬虫系列(2)----爬虫常用库
2018-10-29 本文已影响0人
SofiyaJ
Python内置库
- urlib
- re 有关正则表达式,非python独有
需要通过PIP安装的库
- requests
- selenium (需要下载对应浏览器的驱动)
一般写爬虫程序,为了避免时不时有浏览器启动和关闭,我们可以采用无前端页面的phantomjs,其中也需要下载安装对应浏览器的驱动。
- lxml 用于网页解析
除了pip命令行下载,也可以手动下载将其解压后放入对应的路径。
- beautifulsoup,按照下面的进行下载,否则会报错。
pip install beautifulsoup4
- pyquery 和jquery十分相似
关于存储数据的库
- pysql 关系型数据库
- pymongo 非关系型数据库
- redis
往期好文:
大数据学习笔记之爬虫系列(1)----爬虫简介