scrapy爬虫

2018-09-20  本文已影响0人  MkTom
image.png scrapy爬虫.png image.png

运行爬虫 scrapy crawl +<爬虫名字>
Scrapy的安装:pip install scrapy
创建scrapy的项目:scrapy startproject myspider
创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn
运行scrapy爬虫:在项目目录下执行 scrapy crawl itcast
解析并获取scrapy爬虫中的数据:
response.xpath() 方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串,列表为空没有返回None
scrapy管道的基本使用:

完善pipelines.py中的 process_item 函数
在settings.py中设置开启pipeline
ITEM_PIPELINES = {
'myspider.pipelines.ItcastPipeline': 400
}

数据库pipeline的设置
process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

上一篇下一篇

猜你喜欢

热点阅读