某网站段子爬取

2022-06-12  本文已影响0人  Lonelyroots

logging日志模块

import scrapy
from myspider01.items import QiushibaikeItem
import logging

logger = logging.getLogger(name) # 日志爬虫脚本名

class QiushibaikeSpider(scrapy.Spider):
name = 'qiushibaike'
allowed_domains = ['qiushibaike.com']
start_urls = ['https://www.qiushibaike.com/text/']

def parse(self, response):
    div_list = response.xpath('//div[@id="content"]/div/div[2]/div')  # 得到所有段子
    for div in div_list:
        # 得到每个段子
        author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()  # 得到第一个Select对象data的数据
        author = author.replace('/n', '')

        content = div.xpath('./a[1]/div/span//text()').extract()
        content = ''.join(content)
        content = content.replace('/n', '')
        content = content.replace('"', '“')
        content = content.replace("'", '‘')

        # print(author, content)

        item = QiushibaikeItem()
        item['author'] = author
        item['content'] = content

        # yield item  # 把每一个段子发送给管道

        logger.error(item)

这里用到了scrapy框架,详情请点击Python(七十六)scrapy框架入门(下)
文章到这里就结束了!希望大家能多多支持Python(系列)!六个月带大家学会Python,私聊我,可以问关于本文章的问题!以后每天都会发布新的文章,喜欢的点点关注!一个陪伴你学习Python的新青年!不管多忙都会更新下去,一起加油!

Editor:Lonelyroots

上一篇下一篇

猜你喜欢

热点阅读