大数据学习笔记之爬虫系列(2)----爬虫常用库

2018-10-29  本文已影响0人  SofiyaJ

Python内置库

需要通过PIP安装的库

一般写爬虫程序,为了避免时不时有浏览器启动和关闭,我们可以采用无前端页面的phantomjs,其中也需要下载安装对应浏览器的驱动。

除了pip命令行下载,也可以手动下载将其解压后放入对应的路径。

pip install beautifulsoup4

关于存储数据的库

往期好文:
大数据学习笔记之爬虫系列(1)----爬虫简介

上一篇下一篇

猜你喜欢

热点阅读