scrapy笔记

2019-03-23  本文已影响0人  _好孩子

创建项目步骤:

0:pycharm安装scrapy

1:创建一个空目录,用来存放项目

2:File->new projiect->pure python 选择上面创建的目录,点完成

3.当前项目下点Terminal,进入项目跟目录(默认就是),输入scrapy startproject <projectName>

4.当前项目下点Terminal,cd进入项目的spider目录(默认目录两级子目录)输入scrapy genspider <spiderName> <域名>

注意:spiderName和projectName不能重复

5.编辑item文件

6.编辑spider文件

7.运行spider:Terminal中用cd进入 scrapy.cfg所在目录下  执行:scrapy crawl <spiderName> 【-o data.json/data.csv】

8.如果包403,更改setting文件的USER_AGENT值,值可以在你要爬的网站中找一个请求,复制里面的user_agent值

9.上面每次要运行spider都要在Terminal输入命令,很麻烦,可以在和settings文件同一文件加下创建main.py文件,加入以下内容:

from scrapyimport cmdline

cmdline.execute('scrapy crawl douban_spider'.split())

通过运行该文件来启动spider

10.setting文件中打开pipline,配置数据库连接信息;编写pipline文件

11.http代理设置:

    download_midleware中(注意不是spider_midleware)定义代理类,并在setting文件中配置

12.useragent伪装

    同上

上一篇下一篇

猜你喜欢

热点阅读