python爬虫从入门到放弃之十四：Scrapy入门使用

2019-07-27 本文已影响4人 52d19f475fe5

——Scrapy是为持续运行设计的网络爬虫框架，提供操作的Scrapy命令行，更适合程序员使用

1. 创建一个scrapy项目:scrapy startproject <项目名称>

2. 生成一个爬虫:scrapy genspider <爬虫名称> <允许爬取的域名>

3. 运行一个爬虫:scrapy crawl <爬虫名称>

以上，列出最常用的三个，其他可以用scrapy -h查看

目标网站：豆瓣Top250图书 https://book.douban.com/top250

爬取数据：书名、评分、推荐语、链接

scrapy startproject myspider
cd myspider
scrapy genspider douban book.douban.com

创建scrapy项目和爬虫

返回上一级目录：生成文件树：

文件树

生成的文件如下：

文件树

douban.py内容如下：

douban.py代码