分布式爬虫scrappy-redis抓取房天下数据
2020-12-30 本文已影响0人
幼姿沫
分布式爬虫scrapy-redis来爬取房天下的各个省份的房源信息(新房和二手房房源信息)
newhouse.json/esf.json 并且保存到redis数据库
文件结构

sfw.py 搜房网爬虫页面



新房房源


二手房房源


items.py 预设网页上的爬取的数据字段


pipelines.py 将数据进行保存页面

middlewares.py 中间件页面



settings.py配置信息


start.py 启动爬虫页面

esf.json 存放二手房信息的文件

newhouse.json 存放新房房源信息

控制台展示运行之后进行保存

在redis数据库中查找数据


