scrapy爬虫

2019-01-22  本文已影响0人  Color丶瞎


windows下安装需要  pypiwin32       

```

创建项目和爬虫

项目:scrapy startproject xxx

爬虫:进入到项目所在路径,scrapy genspider xxx_name  xxx_域名    

注: 项目名和爬虫名 不能相同

scrapy startproject xxx
cd xxx
scrapy genspider xxx_1 "yyy.com"

CrawlSpider:

scrapy genspider -t crawl xxx_1 "yyy.com"

```

```

items.py  存放爬虫爬取下来数据的模型

middlewares.py   存放各种中间件的文件

pipelines.py   将items的模型存储到本地磁盘中

settings.py    爬虫配置信息

scrapy.cfg  项目的配置文件

spiders包 以后所有的爬虫  存放的路径

```

settings.py打开

```

ROBOTSTXT_OBEY =False

DOWNLOAD_DELAY =1

DEFAULT_REQUEST_HEADERS   

ITEM_PIPELINES  # pipelines

```

再在与scrapy.cfg同目录下  创建一个 程序运行的run_pro.py:

from scrapyimport cmdline

cmdline.execute("scrapy crawl 项目名".split())

# cmdline.execute(["scrapy","crawl", "项目名"])

```

上一篇 下一篇

猜你喜欢

热点阅读