selenium+python做爬虫开发前环境准备

2019-11-21 本文已影响0人温室寻荒凉

爬虫开发的路很多，这里仅记录一条适合我的路。

一个文件，100多行代码，就完成了一个带定时器的每天自动爬取的爬虫开发，每次爬取时自动登录账号，能对网站的二层浏览结构实现随意爬取，能控制有头无头模式，能控制是否加载网页图片等。

操作系统：windows

软件下载

python环境：我用的是Anaconda（下载地址：https://www.anaconda.com/distribution/#download-section）

需要注意：装完Anaconda后将相关路径放到环境变量的Path里，例如：

D:\Anaconda\

D:\Anaconda\Scripts

D:\Anaconda\Library\bin

D:\Anaconda\Library\mingw-w64\bin（可选）

浏览器驱动：chrome-dirver(下载地址：http://npm.taobao.org/mirrors/chromedriver/)

需要注意：主机要安装浏览器，浏览器和浏览器的驱动需要保持版本一致，以便程序控制浏览器

pip install selenium

pip install psycopg2

pip install apscheduler

提示：

【selenium】用来控制浏览器操作页面，模拟人对浏览器的各种操作，很强大；

【psycopg2】是我用来操作 postgresql 数据库的插件，以便将爬取到的数据放入数据库；

【apscheduler】是用来做定时任务的，很强大，比如每天定时爬取；

略

提示：先学会python，再找文档学习 selenium、psycopg2、apscheduler 三者的使用，写一些业务代码就能开心的让爬虫工作了。