[CP_14] Python爬虫框架01:Scrapy框架创建项
目录结构
一、Scrapy框架简介
1. Scrapy引入
2. Scrapy工作流程
二、搭建Scrapy框架
1. 安装Scrapy
2. 创建一个Scrapy项目
三、案例:利用Scrapy框架爬取某音乐排行榜信息
1. 创建项目:musicSpide
2. 在items.py中定义目标字段:title、artist
3. 利用scrapy命令生成编写爬虫的主体脚本:muSpider.py
4. 编写muSpider.py文件,运行爬虫框架获取响应数据
5. 数据清洗,提取目标数据
四、 利用yield关键字优化数据返回机制(效率)
1. yield关键字
2. yield优化返回数据效率
五、piplines管道实现:对item后期处理&数据保存
1. 编写piplines.py脚本
2. 对管道进行ITEM_PIPELINES设置执行优先级
3. 执行爬虫主体脚本,获取目标数据
六、自动翻页
一、Scrapy框架简介
1. Scrapy引入
Scrapy:是用Python实现爬取网站数据、提取结构性数据而编写的应用框架,用户通过定制开发几个模块就可实现爬虫功能,极大提高工作效率
2. Scrapy工作流程
- Scrapy Engine(引擎):负责Spider、Item Pipeline、Downloader、Scheduler中间的通讯,信号和数据传递
- Scheduler(调度器):负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列入队,当引擎需要时交还给引擎
- Downloader(下载器):负责下载Engine发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine,由引擎交给Spider来处理
- Spider(爬虫):负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler
- Item Pipeline(管道):负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过虑、存储)
- Downloader Middlewares(下载中间件):一个可自定义扩展下载功能的组件
- Spider Middlewares(Spider中间件):一个可自定义扩展和操作引擎和Spider中间件的功能组件。如进入Spider的Responses、从Spider出去的Requests
制作Scrapy爬虫的步骤:
1)新建项目(scrapy startproject xxx):新建一个新的爬虫项目
2)明确目标(编写items.py):明确想要抓取的目标
3)制作爬虫(spiders/xxspider.py):制作爬虫,开始爬取网页
4)存储内容(pipelines.py):设计管道,存储所爬取的内容
二、搭建Scrapy框架
1. 安装Scrapy
pip install Scrapy
安装异常处理,可参看:
[Scrapy安装]error:Microsoft Visual C++ 14.0 is required.Get it with "Microsoft Visual C++ Build Tools"_解决方案
2. 创建一个Scrapy项目
在开始爬取之前,需要创建一个新的Scarpy项目。自定义一个项目目录(如:scrapyProject),然后执行命令:
scrapy startproject {项目名称}
如:scrapy startproject mySpider
执行以上命令所生成的项目目录:
以上,mySpider为项目名称,表现为创建一个"mySpider"命名的文件夹
项目文件夹下主要文件的作用:
mySpider:项目的Python模块,将会从这里引用代码
mySpider / spiders /:存储爬虫代码的目录
mySpider / spiders / items.py:项目的目标文件(决定爬取的内容)
mySpider / spiders / middlewares.py:项目的中间件
mySpider / spiders / pipelines.py:项目的管道文件
mySpider / spiders / settings.py:项目的设置文件
scrapy.cfg:项目的配置文件
三、案例:利用Scrapy框架爬取某音乐排行榜信息
描述:利用Scrapy框架,获取某音乐网站排行榜中的音乐名称、艺术家的信息,然后保存到特定文件中(如:json文件)
被测URL:http://www.htqyy.com/top/hot
第1页:http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20
第2页:http://www.htqyy.com/top/musicList/hot?pageIndex=1&pageSize=20
第3页:http://www.htqyy.com/top/musicList/hot?pageIndex=2&pageSize=20
1. 创建项目:musicSpide
scrapy startproject musicSpider
2. 在items.py中定义目标字段:title、artist
items.py
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
# 定义目标数据的字段
class MusicspiderItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title=scrapy.Field() # 音乐名称
artist=scrapy.Field() # 艺术家
3. 利用scrapy命令生成编写爬虫的主体脚本:muSpider.py
进入项目目录:\scrapyProject\musicSpider
执行命令:
# 指定爬取域名的范围,如选用主域名
scrapy genspider muSpider "www.htqyy.com"
已在指定路径下创建好了 muSpider.py文件:
4. 编写muSpider.py文件,运行爬虫框架获取响应数据
muSpider.py
# -*- coding: utf-8 -*-
import scrapy
class MuspiderSpider(scrapy.Spider):
name = 'muSpider' # 爬虫可识别的名称
allowed_domains = ['www.htqyy.com'] # 爬取域名范围
start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20'] # 初始url
# 处理响应数据的方法
def parse(self, response):
filename="music.html"
data=response.body # 获取响应内容
open(filename,"wb").write(data) # 写入本地
执行命令:
# muSpider为以上第3步生成的爬虫主文件名
scrapy crawl muSpider
若出现异常提示:ModuleNotFoundError: No module named 'win32api'
则解决方案为:安装pywin32
操作命令:pip install pywin32
Scrapy框架运行OK,如下:
运行scrapy框架后生成所爬取的html数据文件:
5. 数据清洗,提取目标数据
利用正则提取目标字段(音乐名、艺术家)的内容,并存放到列表中,然后利用命令行调动scrapy框架运行生成存放目标内容的json文件
muSpider.py
# -*- coding: utf-8 -*-
import scrapy
import re
# 引入定义目标字段的MusicspiderItem类
from musicSpider.items import MusicspiderItem
class MuspiderSpider(scrapy.Spider):
name = 'muSpider' # 爬虫可识别的名称
allowed_domains = ['www.htqyy.com'] # 爬取域名范围
start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20'] # 初始url
# 处理响应数据的方法
def parse(self, response):
# filename="music.html"
data=response.body.decode() # 获取响应内容
# open(filename,"wb").write(data) # 写入本地
items=[] # 存放所有音乐信息的列表
titles=re.findall(r'target="play" title="(.*?)"',data) # 获取所有音乐名
artists=re.findall(r'title="(.*?)" target="_blank"',data) # 获取所有艺术家
for i in range(0,len(titles)):
mu_item=MusicspiderItem() # 创建item对象
mu_item["title"]=titles[i] # 将title内容赋给mu_item
mu_item["artist"]=artists[i] # 将artist内容赋给mu_item
items.append(mu_item) # 将mu_item追加到items列表中
return items
进入目录:\scrapyProject\musicSpider
执行命令:
# muSpider为以上第3步生成的爬虫主文件名
scrapy crawl muSpider -o music.json
执行结果:
以上,生成的json文件,其内容是二进制形式,没有展示出明文中英文字符,因此还需要对json转换处理
getResult.py
import json
with open(r'D:\CI_Env\Python_Test\Python爬虫\Scrapy框架\scrapyProject\musicSpider\music.json',"rb") as f:
result=json.load(f)
f.close()
print(result)
执行结果:
四、 利用yield关键字优化数据返回机制(效率)
1. yield关键字
- 列表联合return:构造完成所有的列表数据,才会将结果数据返回出去
- yield:将方法转换为一个生成器(generator),每构造成功一个item对象,都会将对应数据返回出去;占用内存少,压力相对小
generator.py
def ff1():
list1=[]
for i in range(1,10):
list1.append(i)
return list1
print(ff1())
print("------------------------------")
def ff2():
for i in range(1,10):
yield i
gen=ff2()
print(gen)
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
2. yield优化返回数据效率
muSpider.py
# -*- coding: utf-8 -*-
import scrapy
import re
# 引入定义目标字段的MusicspiderItem类
from musicSpider.items import MusicspiderItem
class MuspiderSpider(scrapy.Spider):
name = 'muSpider' # 爬虫可识别的名称
allowed_domains = ['www.htqyy.com'] # 爬取域名范围
start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20'] # 初始url
# 处理响应数据的方法
def parse(self, response):
# filename="music.html"
data=response.body.decode() # 获取响应内容
# open(filename,"wb").write(data) # 写入本地
# items=[] # 存放所有音乐信息的列表
titles=re.findall(r'target="play" title="(.*?)"',data) # 获取所有音乐名
artists=re.findall(r'title="(.*?)" target="_blank"',data) # 获取所有艺术家
for i in range(0,len(titles)):
mu_item=MusicspiderItem() # 创建item对象
mu_item["title"]=titles[i] # 将title内容赋给mu_item
mu_item["artist"]=artists[i] # 将artist内容赋给mu_item
yield mu_item
# items.append(mu_item) # 将mu_item追加到items列表中
# return items
执行命令:
scrapy crawl muSpider -o music2.json
执行结果:
五、piplines管道实现:对item后期处理&数据保存
管道文件:负责对item的后期处理or数据保存。以上是通过Scrapy自带的机制执行命令生成指定的json数据文件,而处理数据提取和清洗后的数据保存工作,可交由管道(piplines)专门处理
1. 编写piplines.py脚本
piplines.py
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
# 管道1:负责item的后期处理&数据保存
class MusicspiderPipeline(object):
# 定义初始化方法,列出需要初始化的参数(可省略)
def __init__(self):
self.file=open("music.txt","a") # 追加方式写入
# 管道每次接收到item后执行的方法(必须实现,不可省略)
# return item 必须存在
def process_item(self, item, spider):
content=str(item)+"\n"
self.file.write(content) # 写入数据到本地
return item
# 爬取结束时执行的方法(可省略)
def close_spider(self,spider):
self.spider.close()
2. 对管道进行ITEM_PIPELINES设置执行优先级
此时需要留意以上脚本中顶部注释中的提示语"Don't forget to add your pipeline to the ITEM_PIPELINES setting",需要对管道进行ITEM_PIPELINES设置执行优先级(可适用单个or多个管道的场景),如下:
/spiders/settings.py
# 设置管道优先级:0-1000数字越小,优先级越大
ITEM_PIPELINES = {
'musicSpider.pipelines.MusicspiderPipeline': 300,
}
3. 执行爬虫主体脚本,获取目标数据
执行命令:
scrapy crawl muSpider
执行结果:
以上,管道文件piplines.py中process_item()方法,每收到一个item对象,就会执行一次该方法;即每爬取1条数据,都会追加到指定文件中保存
六、自动翻页
对以上项目中的音乐名的翻页列表爬虫案例进行优化,实现多页翻页爬虫的效果
muSpider.py
# -*- coding: utf-8 -*-
import scrapy
import re
# 引入定义目标字段的MusicspiderItem类
from musicSpider.items import MusicspiderItem
class MuspiderSpider(scrapy.Spider):
name = 'muSpider' # 爬虫可识别的名称
allowed_domains = ['www.htqyy.com'] # 爬取域名范围
start_urls = ['http://www.htqyy.com/top/musicList/hot?pageIndex=0&pageSize=20'] # 初始url
# 处理响应数据的方法
def parse(self, response):
# filename="music.html"
data=response.body.decode() # 获取响应内容
# open(filename,"wb").write(data) # 写入本地
titles=re.findall(r'target="play" title="(.*?)"',data) # 获取所有音乐名
artists=re.findall(r'title="(.*?)" target="_blank"',data) # 获取所有艺术家
# 遍历将每一首音乐名、艺术家的存储在列表并返回
for i in range(0,len(titles)):
mu_item=MusicspiderItem() # 创建item对象
mu_item["title"]=titles[i] # 赋值
mu_item["artist"]=artists[i]
yield mu_item # 返回mu_item对象的数据
# 获取当前请求的url,提取出页码信息
url_1=response.url
pat1=r"pageIndex=(\d)"
page=re.search(pat1,url_1).group(1)
# 构造下一页url,发送下一次请求
page=int(page)+1
if page<5: # 限定5页
# 构造下一页url
next_url="http://www.htqyy.com/top/musicList/hot?pageIndex="+str(page)+"&pageSize=20"
# 发送下一次请求
# 在parse方法里发送请求,请求完成后会调用parse方法
yield scrapy.Request(next_url,callback=self.parse)
执行命令:
scrapy crawl muSpider
执行结果:
【总结】
本次通过Scrapy框架实现爬虫目标,相当于Scrapy中各个组件分工合作共同完成一个任务。本次使用组件对应作用为:
items.py:定义目标字段
muSpider.py:定义url链接、清洗响应数据
piplines.py:处理items.py中清洗后的数据,并保存目标数据到指定文件
settings.py:配置文件,如可配置管道的执行优先级