Scrapy 框架的简单使用(十五)

2019-07-30  本文已影响0人  梦捷者

一、在Scrapy框架中新建爬虫项目

二、在Scrapy框架中编写爬虫

1、创建一个TzcSpider的类,它必须继承scrapy.Spider类,需要定义一下三个属性:
2、我们也可以通过命令创建爬虫(注意:一定要cd到创建项目的根目录下进行相关命令)

三、在Scrapy框架中运行爬虫

四、 在Scrapy框架中追踪链接(进行追踪爬取链接网页源代码)

上面的爬虫仅仅只爬取了一页,当然不符合我们的要求,我们需要爬取下一页,下一页,直到所有的信息都被下载。我们从页面中提取连接,或者根据规则构建。现在来看我们的爬虫修改为递归的爬取下一页的链接,从中提取数据。

五、在Scrapy框架中定义(激活)item管道

六、在Scrapy框架中编写管道类

注意:这个管道的目的只是介绍如何编写项目管道,如果要将所有爬取的item存储到json文件中,则应使用Feed导出,在运行爬虫是加上如下参数:scrapy crawl tzc -o courses.json

七、定义item(在items.py文件中定义item对象)

上一篇下一篇

猜你喜欢

热点阅读