(七)Scrapy框架(二) ?python+scrapy爬虫5
2019-08-03 本文已影响0人
栗小心
scrapy shell 主要用来调试页面返回的数据, 调试某一个请求, 返回的响应内容.
scrapy shell + url + callback :
shelp(): 返回可操作的对象或方法的简介信息
fetch(): 发送请求. 也可以先构造请求对象再进行发送.
调试大致流程:
- 确定你要进行分析的页面的URL
- 通过fetch请求该URL
- 对返回的Response进行一个自定义的分析
- bs4, xpath, re. response.text
4.extract 返回列表,提取的数据以字符串类型保存在列表中; 不是只能提取字符串,而是因为xpath提取的数据返回的结果本身就是字符串类型!
5.如果我们提取的数据保存在列表中,但是提取的数据只有一个,这个时候一般我们会自己索引取值,把这个唯一的数据取出来。
- extract_first :返回字符串,返回匹配的第一个数据的字符串格式
xp = response.xpath(" //title/text() ").extract()
xp = response.xpath(" //title/text() ").extract_first()
2019-06-09_150042.png
2019-06-09_150745.png
Scrapy选择器:
css和xpath
2019-06-09_151401.png1.正则表达式匹配返回的数据就是列表
2.xpath和正则表达式可以一起使用,但是正则表达式必须放到最后
selector:
2019-06-09_152257.png注:用的最多的是通过 fetch(): 发送请求. ,直接 xpath 匹配结果
scrapy. Spider:
Spider:scrapy爬虫基类
pycharm:
ctrl + 鼠标左键: 点击进入对应的源代码中.
start_requests :
start_requests 该方法可重写:
【start_requests 默认是get请求】,当我们需要自定义第一次请求的时候, 就会重新该方法, 比如登陆请求的发送.
用来构造并发送项目运行的第一次或第一批请求.
parse:
默认的Request对象回调函数,处理返回的response;生成的Item或者Request对象,用户必须实现这个方法。
爬取 51job网站 的指定职位信息
# 职位
//div[@class='el']/p/span/a/@title
# 招聘详情页
//div[@class='el']/p/span/a/@href
# 公司名称
//div[@class='el']/span[@class='t2']/a/text()
# 地点
//div[@class='el']/span[@class='t3']/text()
# 薪资
//div[@class='el']/span[@class='t4']/text()
# 发布时间
//div[@class='el']/span[@class='t5']/text()
# 工作要求
lxml: "".join(xpath("//div[@class='bmsg job_msg inbox']/p/text()"))
# 下一页
//div[@class='p_in']/ul/li[@class='bk'][2]/a/@href
# 终止条件.
还是用下一页的xpath去匹配, 如果匹配的结果为空, 那么就可以结束项目运行了.
51job数据爬取,第一页信息和详情页信息:
def parse(self, response):
"""
该方法用于处理招聘的每一页.
:param response:
:return:
"""
node_list = response.xpath("//div[@id='resultList']/div[@class='el']")
# 整个for循环结束代表 当前这一页已经爬完了, 那么就该开始爬取下一页
for node in node_list:
item = PawuyijobItem()
item["position_name"] = node.xpath("./p/span/a/@title").extract_first()
item["company_name"] = node.xpath("./span[@class='t2']/a/@title").extract_first()
item["work_place"] = node.xpath("./span[@class='t3']/text()").extract_first()
item["work_salary"] = node.xpath("./span[@class='t4']/text()").extract_first()
item["release_date"] = node.xpath("./span[@class='t5']/text()").extract_first()
detail_url = node.xpath("./p/span/a/@href").extract_first()
# meta: 由于我们的Item对象中的数据还有职位要求没有获取, 所以在这里不能就直接提交item
# 需要在详情页处理完后再提交, 所以我们通过meta这个参数, 把当前的Item对象传递给下一个处理方法来进行后续的处理
# ?: Item有6个字段, 在parse中只获取了5个字段, 难道还剩得的一个字段不管了么?
# 要管咋办呢? item对象在parse中, 详情页的职位要求数据在parse_detail方法中提取.
# 如何把职位要求数据添加到parse方法中的item呢? 是不是以之前学的内容 是不是没办法.
# 那就meta: 就像快递员, 将parse的item发送给parse_detail.
yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={"item": item})
next_url = response.xpath("//div[@class='p_in']//li[@class='bk'][2]/a/@href").extract_first()
if not next_url:
return
yield scrapy.Request(url=next_url, callback=self.parse)
def parse_detail(self, response):
"""
该方法用于处理招聘的详情页
:param response:
:return:
"""
item = response.meta["item"]
item["job_require"] = ''.join(response.xpath("//div[@class='bmsg job_msg inbox']/p/text()").extract())
yield item