我爱编程Python Scrapy 爬虫项目

通过Scrapy 抓取链家网所有地区二手房数据

2018-01-05  本文已影响0人  Max之谜

使用Python抓取深圳链家房地产数据,保存至mysql数据库,并进行数据分析
逻辑:
1、通过任意一个链家网址进入,抓取链家二级域名网址,如sz.lianjia.com;bj.lianjia.com
2、通过二级链接组装二手房链接地址,如sz.lianjia.com/ershoufang/
3、获取二手房页面的筛选条件标签:地区、价格等,如ershoufang/p2/,再次进行组装,与当前请求的url
--目标格式为sz.lianjia.com/ershoufang/p2/,可查询深圳市200-300万的房子
4、查询当前筛选条件共多少页,获取页面的页码最大值,进行循环生成最终请求的url
--如sz.lianjia.com/ershoufang/p2/pg2/
5、进行请求最终url,并保存页面房产信息
6、保存至mysql数据库

Configuration

前端框架:Bootstrap
爬虫框架:Scrapy+BeautifulSoup
数据库:Mysql

Project log

Creation date:2017/12/22 10:41
Version:0.1
Describe:

Version:0.2
Update date:2017/12/25 20:37

Version:0.3

项目进展

1、目前卡在了0.3版本

原因:

等待完善

项目地址:https://gitee.com/supermaxwu/ShenzhenRealestate

上一篇下一篇

猜你喜欢

热点阅读