Python爬虫构建

2021-10-25 本文已影响0人 LK丶猪在飞

1.环境搭建

1.1 虚拟机安装

豆瓣源安装提速：
pip install -i https://pypi.doubanio.com/simple **

step.1 安装虚拟机
pip install virtualenv
step.2 安装虚拟机管理工具
pip install virtualenvwrapper / virtualenvwrapper-win 【windows环境下】

1.2 配置虚拟环境

Windows环境下
- step.1 配置环境变量
  添加WORKON_HOME系统变量配置路径为虚拟机所在位置
- step.2 创建虚拟机
  mkvirtualenv 【虚拟机名称】或指定python版本创建 mkvirtualenv -p=【Python安装路径】【虚拟机名称】
Linux环境下
- step.1 查找virtualenvwrapper
  sudo find / -name virtualenvwrapper.sh
- step.2 配置环境变量
  vim ~/.bashrc
  添加
  WORKON_HOME=$HOME/.virtualenvs
  source */*/virtualenvwrapper.sh
- step.2 创建虚拟机
  mkvirtualenv --python=【Python安装路径】【名称】
共用命令
- 退出虚拟环境 deactivate
- 查看虚拟机列表 workon
- 进入虚拟机 workon 【名称】

2.爬虫项目

2.1 创建并进入虚拟机

mkvirtualenv --python=/usr/bin/python3 py3scrapy

2.2 安装框架

使用豆瓣源安装scrapy
pip install -i https://pypi.doubanio.com/simple scrapy

若报import错误：

进入 https://www.lfd.uci.edu/~gohlke/pythonlibs/

查找所缺失的包并下载

安装 pip install *.whl

2.3 创建Scrapy工程

进入虚拟环境 workon py3scrapy
创建工程 scrapy startproject articleSpider
生成模版 scrapy genspider hbut hbut.91wllm.com

生成项目结构如下：

目录结构.png

3.自动运行

3.1 使用Timer

首先在scrapy.cfg同级目录下新建main.py

import os
from scrapy.cmdline import execute
import sys
import schedule
import time

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

//使用timer
 while True:
    os.system("scrapy crawl hbut")
    time.sleep(60) //每60秒运行一次

3.2 使用Schedule

安装Schedule pip install -i https://pypi.doubanio.com/simple schedule
修改main.py如下：

import os
from scrapy.cmdline import execute
import sys
import schedule
import time

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

//使用schedule 需安装
 def job():
     print("I'm working...")
     os.system("scrapy crawl hbut")

// 每10分钟执行
 schedule.every(10).minutes.do(job)
// 每一小时执行
schedule.every().hour.do(job)
// 每天15:58分执行
 schedule.every().day.at("15:58").do(job)
// 每周一的当前时间执行
 schedule.every().monday.do(job)
// 每周三13:15执行
 schedule.every().wednesday.at("13:15").do(job);

 while True:
     schedule.run_pending()
     time.sleep(1)

3.3 使用Crontab

编写要执行的命令脚本cron.sh

#! /bin/sh          
export PATH=$PATH:/usr/local/bin
cd /home/testCron
nohup scrapy crawl example >> example.log 2>&1 &

执行，crontab -e，规定crontab要执行的命令和要执行的时间频率，这里我需要每一分钟就执行scrapy crawl example这条爬取命令：
*/1 * * * * sh /home/testCron/cron.sh
使用main.py，执行命令：
*/1 * * * * python /home/articleSpider/main.py

crontab的常见格式：

crontab格式.png

4.运行所有爬虫

1.在spiders目录的同级目录下创建一个commands目录，并在该目录中创建一个crawlall.py，将scrapy源代码里的commands文件夹里的crawl.py源码复制过来，只修改run()方法即可:

def run(self, args, opts):
        # 获取爬虫列表
        spd_loader_list = self.crawler_process.spider_loader.list()
        print(spd_loader_list)

        # 遍历爬虫
        for name in spd_loader_list or args:
            self.crawler_process.crawl(name, **opts.spargs)
            print(name)

        self.crawler_process.start()

还得在里面加个init.py文件，目录结构如下：

目录结构.png

settings.py配置文件还需要加一条。

COMMANDS_MODULE = '项目名称.目录名称'

COMMANDS_MODULE='articleSpider.commands'

执行

cmdline.execute("scrapy crawlall".split())