python 高级码农成才之路

分布式爬虫scrappy-redis抓取房天下数据

2020-12-30  本文已影响0人  幼姿沫

分布式爬虫scrapy-redis来爬取房天下的各个省份的房源信息(新房和二手房房源信息)

newhouse.json/esf.json   并且保存到redis数据库

文件结构

sfw.py  搜房网爬虫页面

新房房源

二手房房源

items.py    预设网页上的爬取的数据字段

pipelines.py   将数据进行保存页面

middlewares.py  中间件页面

settings.py配置信息

start.py  启动爬虫页面

esf.json     存放二手房信息的文件

newhouse.json         存放新房房源信息

控制台展示运行之后进行保存

在redis数据库中查找数据

上一篇 下一篇

猜你喜欢

热点阅读