scrapy爬虫

2018-09-20 本文已影响0人 MkTom

image.png

scrapy爬虫.png

image.png

运行爬虫 scrapy crawl +<爬虫名字>
Scrapy的安装：pip install scrapy
创建scrapy的项目:scrapy startproject myspider
创建scrapy爬虫：在项目目录下执行 scrapy genspider itcast itcast.cn
运行scrapy爬虫：在项目目录下执行 scrapy crawl itcast
解析并获取scrapy爬虫中的数据：
response.xpath() 方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
scrapy管道的基本使用:

完善pipelines.py中的 process_item 函数
在settings.py中设置开启pipeline
ITEM_PIPELINES = {
'myspider.pipelines.ItcastPipeline': 400
}

数据库pipeline的设置
process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

scrapy爬虫

猜你喜欢

热点阅读