某网站段子爬取
2022-06-12 本文已影响0人
Lonelyroots
logging日志模块
import scrapy
from myspider01.items import QiushibaikeItem
import logging
logger = logging.getLogger(name) # 日志爬虫脚本名
class QiushibaikeSpider(scrapy.Spider):
name = 'qiushibaike'
allowed_domains = ['qiushibaike.com']
start_urls = ['https://www.qiushibaike.com/text/']
def parse(self, response):
div_list = response.xpath('//div[@id="content"]/div/div[2]/div') # 得到所有段子
for div in div_list:
# 得到每个段子
author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract() # 得到第一个Select对象data的数据
author = author.replace('/n', '')
content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)
content = content.replace('/n', '')
content = content.replace('"', '“')
content = content.replace("'", '‘')
# print(author, content)
item = QiushibaikeItem()
item['author'] = author
item['content'] = content
# yield item # 把每一个段子发送给管道
logger.error(item)
这里用到了scrapy框架,详情请点击Python(七十六)scrapy框架入门(下)
文章到这里就结束了!希望大家能多多支持Python(系列)!六个月带大家学会Python,私聊我,可以问关于本文章的问题!以后每天都会发布新的文章,喜欢的点点关注!一个陪伴你学习Python的新青年!不管多忙都会更新下去,一起加油!
Editor:Lonelyroots