selenium+python做爬虫开发前环境准备
爬虫开发的路很多,这里仅记录一条适合我的路。
一个文件,100多行代码,就完成了一个带定时器的每天自动爬取的爬虫开发,每次爬取时自动登录账号,能对网站的二层浏览结构实现随意爬取,能控制有头无头模式,能控制是否加载网页图片等。
操作系统:windows
软件下载
python环境:我用的是Anaconda(下载地址:https://www.anaconda.com/distribution/#download-section)
需要注意:装完Anaconda后将相关路径放到环境变量的Path里,例如:
D:\Anaconda\
D:\Anaconda\Scripts
D:\Anaconda\Library\bin
D:\Anaconda\Library\mingw-w64\bin(可选)
浏览器:chrome(下载地址:https://www.google.cn/intl/zh-CN/chrome/)
浏览器驱动:chrome-dirver(下载地址:http://npm.taobao.org/mirrors/chromedriver/)
需要注意:主机要安装浏览器,浏览器和浏览器的驱动需要保持版本一致,以便程序控制浏览器
PowerShell内输入命令行来安装程序
pip install selenium
pip install psycopg2
pip install apscheduler
提示:
【selenium】用来控制浏览器操作页面,模拟人对浏览器的各种操作,很强大;
【psycopg2】是我用来操作 postgresql 数据库的插件,以便将爬取到的数据放入数据库;
【apscheduler】是用来做定时任务的,很强大,比如每天定时爬取;
业务代码
略
提示:先学会python,再找文档学习 selenium、psycopg2、apscheduler 三者的使用,写一些业务代码就能开心的让爬虫工作了。