某网站段子爬取

2022-06-12 本文已影响0人 Lonelyroots

logging日志模块

import scrapy
from myspider01.items import QiushibaikeItem
import logging

logger = logging.getLogger(name) # 日志爬虫脚本名

class QiushibaikeSpider(scrapy.Spider):
name = 'qiushibaike'
allowed_domains = ['qiushibaike.com']
start_urls = ['https://www.qiushibaike.com/text/']

def parse(self, response):
    div_list = response.xpath('//div[@id="content"]/div/div[2]/div')  # 得到所有段子
    for div in div_list:
        # 得到每个段子
        author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()  # 得到第一个Select对象data的数据
        author = author.replace('/n', '')

        content = div.xpath('./a[1]/div/span//text()').extract()
        content = ''.join(content)
        content = content.replace('/n', '')
        content = content.replace('"', '“')
        content = content.replace("'", '‘')

        # print(author, content)

        item = QiushibaikeItem()
        item['author'] = author
        item['content'] = content

        # yield item  # 把每一个段子发送给管道

        logger.error(item)

这里用到了scrapy框架，详情请点击Python（七十六）scrapy框架入门（下）
文章到这里就结束了！希望大家能多多支持Python（系列）！六个月带大家学会Python，私聊我，可以问关于本文章的问题！以后每天都会发布新的文章，喜欢的点点关注！一个陪伴你学习Python的新青年！不管多忙都会更新下去，一起加油！

Editor：Lonelyroots

某网站段子爬取

logging日志模块

猜你喜欢

热点阅读