小区房源爬取

2017-04-23  本文已影响0人  巴拉巴拉_9515

主要参考网页

小区房源爬取

Q房网深圳高档小区房源 

前言

在实际工作中我们有时需要获取互联网上的非结构化数据,那么就涉及到网络爬虫知识。能写网络爬虫的语言很多,比如Perl,PHP,Python,R语言等,各有利弊,但不管好的坏的,能抓到有用的数据都是好的。本文使用R语言来写网络爬虫,但本文只涉及基础爬虫.

本文爬取Q房网深圳高档小区房源

第一步:打开浏览器,输入地址

第二步:在弹出页面上任一一家小区名称处,点击右键“检查/查看元素”,比如我点了第一家小区,那么浏览器直接定位到源代码中存放该小区名称位置)

第三步:仔细观察html代码层级关系

第四步:爬取的数据页面不只一页,点击下一页观察链接如何变化

网页链接

第一页网页爬取

针对如下网页布局,爬取所有小区房产信息:包括小区名称,建造时间,地址,售价等信息

网页爬取内容

1、小区名称爬取

小区名称爬取代码 爬取到网页第一页30个小区名称

小区建造时间爬取

小区建造时间爬取 爬取到对应的30个创建时间

小区地址爬取

小区地址爬取 地址爬取结果

小区租金爬取

小区租金爬取 小区租金结果

创建数据框

合并小区爬取内容 小区信息数据框构建结果

到此为止,网页第一个的所有小区都爬取完成了

所有网页小区信息爬取

构建一个函数,爬取78页的网页信息

所有小区爬取函数 2340个小区信息

到这里为止,网页上深圳小区的信息都爬取成功,保存为数据框了。接下来需要对爬取内容做分析和可视化展现。







小区建造时间爬取

上一篇 下一篇

猜你喜欢

热点阅读