我爱编程 Python Scrapy 爬虫项目

通过Scrapy 抓取链家网所有地区二手房数据

2018-01-05 本文已影响0人 Max之谜

使用Python抓取深圳链家房地产数据，保存至mysql数据库，并进行数据分析
逻辑：
1、通过任意一个链家网址进入，抓取链家二级域名网址，如sz.lianjia.com;bj.lianjia.com
2、通过二级链接组装二手房链接地址，如sz.lianjia.com/ershoufang/
3、获取二手房页面的筛选条件标签：地区、价格等，如ershoufang/p2/，再次进行组装，与当前请求的url
--目标格式为sz.lianjia.com/ershoufang/p2/，可查询深圳市200-300万的房子
4、查询当前筛选条件共多少页，获取页面的页码最大值，进行循环生成最终请求的url
--如sz.lianjia.com/ershoufang/p2/pg2/
5、进行请求最终url，并保存页面房产信息
6、保存至mysql数据库

Configuration

前端框架:Bootstrap
爬虫框架:Scrapy+BeautifulSoup
数据库：Mysql

Project log

Creation date:2017/12/22 10:41
Version:0.1
Describe:

Create Project
Use Scrapy Requests
Use Bs4 Responses Data

Version:0.2
Update date:2017/12/25 20:37

Optimization data,(Id,Region,Garden,Layout,Size,Direction,Renovation,Elevator,Price)
Save To Mysql Data

Version:0.3

Analysis data

项目进展

1、目前卡在了0.3版本

原因：

在看《使用python进行数据分析》
学习Numpy，暂不知为何需要使用这个
学习pandas，学习使用DataFrame与Series
预备学习：pyplot
还没有学习：matplotlib
实际原因：
scrapy单机抓取太慢，电脑6天不关机，过滤重复数据后，才抓了18万条有效数据
预计学习分布式抓取
增量式爬取
定时更新

等待完善

项目地址：https://gitee.com/supermaxwu/ShenzhenRealestate

上一篇下一篇

猜你喜欢

热点阅读