Python爬虫-常用库

2019-07-30 本文已影响0人坤哥爱卿

首先安装Anaconda软件，这个包含了Python和pip以及很多的第三方库。

下载地址：https://www.anaconda.com/distribution/

下面介绍各种第三方库及安装方式：

1.urllib 和 re （自带库）

验证方法：

2.requests （pip安装）

requests官网：https://2.python-requests.org/en/master/

3.selenium（pip安装）和 chromeDriver（HomeBrew安装）---- 有界面浏览器，selenium 自动化测试的

chromeDriver安装方式：https://www.jianshu.com/p/a9df5135a3a3

验证方法：

driver.page_source查看网页源码

4.phantomjs（搜索安装）----无界面浏览器

phantomjs下载地址：https://phantomjs.org/download.html

验证方法：

5.lxml （pip安装）---- xpass解析方式

安装方式一：pip install lxml

安装方式二：

（1）先去百度lxml pypi 下载下来

（2）pip install 下载文件的路径

6.beautifulsoup(pip安装)----网页解析库，依赖于lxml

验证方法：

7.pyquery(pip安装) ----网页解析库，语法与jQuery一致

pyquery官网：https://pythonhosted.org/pyquery/

验证方法：

8.pymysql（pip安装）----操作mysql数据库的库

验证方法：

9.pymongo （pip安装）---- 操作mongo数据库

验证方法：

10.redis（pip安装）---- 用于分布式爬虫，维护一个爬起队列（非关系型）

验证方法：

11.flask（pip安装） ---- web库，代理设置

flask官网：http://docs.jinkan.org/docs/flask/

验证方法：

命令行 import flask 验证

12.django （pip安装）---- Web服务器框架，提供一个完整的后台管理，提供多模板引擎，接口，路由，可以做一个完整的网站，用于分布式爬虫维护

django官网：https://www.djangoproject.com/

验证方法:

import django

13.jupyter ---- 网页记事本功能，可调试，支持markdown,依赖于ipython

jupyter官网：https://jupyter.org/

验证方法：

跳转：

可在线编辑，在线编译

14.splash

splash下载地址：https://splash.readthedocs.io/en/stable/

彩蛋：Mac系统下一行命令安装上面的库

pip3 install requests seleniun beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

Python爬虫-常用库

首先安装Anaconda软件，这个包含了Python和pip以及很多的第三方库。

下载地址：https://www.anaconda.com/distribution/

下面介绍各种第三方库及安装方式：

1.urllib 和 re （自带库）

2.requests （pip安装）

requests官网：https://2.python-requests.org/en/master/

3.selenium（pip安装） 和 chromeDriver（HomeBrew安装）---- 有界面浏览器，selenium 自动化测试的

chromeDriver安装方式：https://www.jianshu.com/p/a9df5135a3a3

验证方法：

4.phantomjs（搜索安装）----无界面浏览器

phantomjs下载地址：https://phantomjs.org/download.html

验证方法：

5.lxml （pip安装）---- xpass解析方式

6.beautifulsoup(pip安装)----网页解析库，依赖于lxml

验证方法：

7.pyquery(pip安装) ----网页解析库，语法与jQuery一致

8.pymysql（pip安装）----操作mysql数据库的库

验证方法：

9.pymongo （pip安装）---- 操作mongo数据库

验证方法：

10.redis（pip安装）---- 用于分布式爬虫，维护一个爬起队列（非关系型）

验证方法：

11.flask（pip安装） ---- web库，代理设置

flask官网：http://docs.jinkan.org/docs/flask/

验证方法：

命令行 import flask 验证

12.django （pip安装）---- Web服务器框架，提供一个完整的后台管理，提供多模板引擎，接口，路由，可以做一个完整的网站，用于分布式爬虫维护

django官网：https://www.djangoproject.com/

验证方法:

import django

13.jupyter ---- 网页记事本功能，可调试，支持markdown,依赖于ipython

jupyter官网：https://jupyter.org/

验证方法：

跳转：

可在线编辑，在线编译

14.splash

splash下载地址：https://splash.readthedocs.io/en/stable/

彩蛋：Mac系统下一行命令安装上面的库

pip3 install requests seleniun beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

猜你喜欢

热点阅读

3.selenium（pip安装）和 chromeDriver（HomeBrew安装）---- 有界面浏览器，selenium 自动化测试的