Python爬虫从入门到放弃

python爬虫从入门到放弃之十四:Scrapy入门使用

2019-07-27  本文已影响4人  52d19f475fe5

——Scrapy是为持续运行设计的网络爬虫框架,提供操作的Scrapy命令行,更适合程序员使用

1. 创建一个scrapy项目:scrapy startproject <项目名称>

2. 生成一个爬虫:scrapy genspider <爬虫名称> <允许爬取的域名>

3. 运行一个爬虫:scrapy crawl <爬虫名称>

以上,列出最常用的三个,其他可以用scrapy -h查看

  1. 创建一个scrapy项目:scrapy startproject myspider

  2. 生成一个爬虫:scrapy genspider douban book.douban.com

  3. 提取数据:完善spider,使用re等方法

  4. 保存数据:pipeline中保存数据

目标网站:豆瓣Top250图书 https://book.douban.com/top250

爬取数据:书名、评分、推荐语、链接

步骤如下:
  1. 创建scrapy项目和爬虫
    示例:
scrapy startproject myspider
cd myspider
scrapy genspider douban book.douban.com
创建scrapy项目和爬虫

返回上一级目录:生成文件树:

文件树

生成的文件如下:

文件树

douban.py内容如下:

douban.py代码
上一篇 下一篇

猜你喜欢

热点阅读