小区房源爬取
2017-04-23 本文已影响0人
巴拉巴拉_9515
主要参考网页
前言
在实际工作中我们有时需要获取互联网上的非结构化数据,那么就涉及到网络爬虫知识。能写网络爬虫的语言很多,比如Perl,PHP,Python,R语言等,各有利弊,但不管好的坏的,能抓到有用的数据都是好的。本文使用R语言来写网络爬虫,但本文只涉及基础爬虫.
本文爬取Q房网深圳高档小区房源
第一步:打开浏览器,输入地址
第二步:在弹出页面上任一一家小区名称处,点击右键“检查/查看元素”,比如我点了第一家小区,那么浏览器直接定位到源代码中存放该小区名称位置)
第三步:仔细观察html代码层级关系
第四步:爬取的数据页面不只一页,点击下一页观察链接如何变化
网页链接第一页网页爬取
针对如下网页布局,爬取所有小区房产信息:包括小区名称,建造时间,地址,售价等信息
网页爬取内容1、小区名称爬取
小区名称爬取代码 爬取到网页第一页30个小区名称小区建造时间爬取
小区建造时间爬取 爬取到对应的30个创建时间小区地址爬取
小区地址爬取 地址爬取结果小区租金爬取
小区租金爬取 小区租金结果创建数据框
合并小区爬取内容 小区信息数据框构建结果到此为止,网页第一个的所有小区都爬取完成了
所有网页小区信息爬取
构建一个函数,爬取78页的网页信息
所有小区爬取函数 2340个小区信息到这里为止,网页上深圳小区的信息都爬取成功,保存为数据框了。接下来需要对爬取内容做分析和可视化展现。
小区建造时间爬取