python分布式爬虫+srapy

(七)Scrapy框架(二) ?python+scrapy爬虫5

2019-08-03  本文已影响0人  栗小心

scrapy shell 主要用来调试页面返回的数据, 调试某一个请求, 返回的响应内容.

scrapy shell + url + callback :

shelp(): 返回可操作的对象或方法的简介信息

fetch(): 发送请求. 也可以先构造请求对象再进行发送.

调试大致流程:

  1. 确定你要进行分析的页面的URL
  2. 通过fetch请求该URL
  3. 对返回的Response进行一个自定义的分析
    1. bs4, xpath, re. response.text

4.extract 返回列表,提取的数据以字符串类型保存在列表中; 不是只能提取字符串,而是因为xpath提取的数据返回的结果本身就是字符串类型!

5.如果我们提取的数据保存在列表中,但是提取的数据只有一个,这个时候一般我们会自己索引取值,把这个唯一的数据取出来。

  1. extract_first :返回字符串,返回匹配的第一个数据的字符串格式
xp = response.xpath(" //title/text() ").extract()
xp = response.xpath(" //title/text() ").extract_first()
2019-06-09_150042.png 2019-06-09_150745.png

Scrapy选择器:

css和xpath

2019-06-09_151401.png

1.正则表达式匹配返回的数据就是列表

2.xpath和正则表达式可以一起使用,但是正则表达式必须放到最后

selector:

2019-06-09_152257.png

注:用的最多的是通过 fetch(): 发送请求. ,直接 xpath 匹配结果

scrapy. Spider:

Spider:scrapy爬虫基类

pycharm:

ctrl + 鼠标左键: 点击进入对应的源代码中.

start_requests :

start_requests 该方法可重写:

【start_requests 默认是get请求】,当我们需要自定义第一次请求的时候, 就会重新该方法, 比如登陆请求的发送.

用来构造并发送项目运行的第一次或第一批请求.

parse:

默认的Request对象回调函数,处理返回的response;生成的Item或者Request对象,用户必须实现这个方法。

爬取 51job网站 的指定职位信息

# 职位
//div[@class='el']/p/span/a/@title

# 招聘详情页
//div[@class='el']/p/span/a/@href

# 公司名称
//div[@class='el']/span[@class='t2']/a/text()

# 地点
//div[@class='el']/span[@class='t3']/text()

# 薪资
//div[@class='el']/span[@class='t4']/text()

# 发布时间
//div[@class='el']/span[@class='t5']/text()

# 工作要求
lxml: "".join(xpath("//div[@class='bmsg job_msg inbox']/p/text()"))

# 下一页
//div[@class='p_in']/ul/li[@class='bk'][2]/a/@href

# 终止条件.
还是用下一页的xpath去匹配, 如果匹配的结果为空, 那么就可以结束项目运行了.

51job数据爬取,第一页信息和详情页信息:

def parse(self, response):
        """
        该方法用于处理招聘的每一页.
        :param response:
        :return:
        """
        node_list = response.xpath("//div[@id='resultList']/div[@class='el']")

        # 整个for循环结束代表 当前这一页已经爬完了, 那么就该开始爬取下一页
        for node in node_list:
            item = PawuyijobItem()
            item["position_name"] = node.xpath("./p/span/a/@title").extract_first()
            item["company_name"] = node.xpath("./span[@class='t2']/a/@title").extract_first()
            item["work_place"] = node.xpath("./span[@class='t3']/text()").extract_first()
            item["work_salary"] = node.xpath("./span[@class='t4']/text()").extract_first()
            item["release_date"] = node.xpath("./span[@class='t5']/text()").extract_first()
            detail_url = node.xpath("./p/span/a/@href").extract_first()

            # meta: 由于我们的Item对象中的数据还有职位要求没有获取, 所以在这里不能就直接提交item
            # 需要在详情页处理完后再提交, 所以我们通过meta这个参数, 把当前的Item对象传递给下一个处理方法来进行后续的处理
            # ?: Item有6个字段, 在parse中只获取了5个字段, 难道还剩得的一个字段不管了么?
            # 要管咋办呢? item对象在parse中, 详情页的职位要求数据在parse_detail方法中提取.
            # 如何把职位要求数据添加到parse方法中的item呢? 是不是以之前学的内容 是不是没办法.
            # 那就meta: 就像快递员, 将parse的item发送给parse_detail.
            yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={"item": item})

        next_url = response.xpath("//div[@class='p_in']//li[@class='bk'][2]/a/@href").extract_first()
        if not next_url:
            return

        yield scrapy.Request(url=next_url, callback=self.parse)

    def parse_detail(self, response):
        """
        该方法用于处理招聘的详情页
        :param response:
        :return:
        """
        item = response.meta["item"]
        item["job_require"] = ''.join(response.xpath("//div[@class='bmsg job_msg inbox']/p/text()").extract())
        yield item
上一篇下一篇

猜你喜欢

热点阅读