scrapy笔记

2019-03-23 本文已影响0人 _好孩子

创建项目步骤：

0：pycharm安装scrapy

1:创建一个空目录，用来存放项目

2：File->new projiect->pure python 选择上面创建的目录，点完成

3.当前项目下点Terminal,进入项目跟目录（默认就是），输入scrapy startproject <projectName>

4.当前项目下点Terminal,cd进入项目的spider目录（默认目录两级子目录）输入scrapy genspider <spiderName> <域名>

注意：spiderName和projectName不能重复

5.编辑item文件

6.编辑spider文件

7.运行spider：Terminal中用cd进入 scrapy.cfg所在目录下 执行：scrapy crawl <spiderName> 【-o data.json/data.csv】

8.如果包403,更改setting文件的USER_AGENT值，值可以在你要爬的网站中找一个请求，复制里面的user_agent值

9.上面每次要运行spider都要在Terminal输入命令，很麻烦，可以在和settings文件同一文件加下创建main.py文件，加入以下内容：

from scrapyimport cmdline

cmdline.execute('scrapy crawl douban_spider'.split())

通过运行该文件来启动spider

10.setting文件中打开pipline,配置数据库连接信息；编写pipline文件

11.http代理设置：

download_midleware中(注意不是spider_midleware)定义代理类，并在setting文件中配置

12.useragent伪装

同上