呆鸟的Python数据分析

Python数据分析案例-租房价格分析

2020-04-02  本文已影响0人  Rambogoal

又快到了高校的毕业季,不知道即将毕业的同学们有没有想好怎么租房呢?最近复习了python数据分析的一些知识,然后在网上爬取了广州的租房价格数据,做了一个广州租房价格的数据分析小项目。

步骤

明确分析的目的

通过对广州租房房源的价格、面积、地理位置、交通信息等因素的分析,为毕业后想留在一线城市如广州工作的同学,提供一个广州租房情况的整体的分析调查.

探索的问题


数据准备

1.数据说明

2.数据预览

1).首先看一下整个数据集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['Microsoft YaHei']   #使图像显示中文
%pylab inline
gz_house = pd.read_csv('house_gz.csv')      #加载数据
gz_house.head(5)        #预览数据
预览数据
每列数据条数

本次分析一共采集了871条有效的房源信息,其中的subway_info属性只有693条记录,存在缺失值,说明有一部分的房源是周边没有地铁的,这些将在数据清洗中进行处理.


数据清洗

数据清理的流程为:

1.选择子集

对于house_room字段,我们需要提取出其中的面积数据和房屋户型数据
对于subway_info字段,我们需要提取出其中的地铁信息数据

#清洗house_room字段,把其中的房子规格、面积提取出来
#提取house_room字段中房子的面积大小,并插入到原数据中,命名为house_area
#提取house_room字段中的房间的规格,并插入回house_room字段中
house_room_info = gz_house['house_room'].str.split('|',expand=True)
gz_house['house_area'] = house_room_info[2]
gz_house['house_room'] = house_room_info[1]
#对地铁信息字段进行清洗,提取其中的几号线
gz_house['subway_info'] = gz_house['subway_info'].str.slice(1,4)

2.缺失数据处理

缺失数据的常用处理方式有:(1)删除缺失值 (2)平均值填充 (3)算法填充 等
对于subway_info字段,有部分的房源没有地铁信息,可以人为的为缺失值命名为“无地铁”

gz_house['subway_info'][pd.isnull(gz_house['subway_info'])] = '无地铁'

3.数据类型转换

对于house_area中的面子字段,分离出来的值都带有㎡符号,而在分析时房屋面积一般需要为浮点型(float)的数据,因此需要将house_area中的㎡除去,并将数据类型进行转换

'''提取house_area字段中的数字'''
def remove_m2(area):
    new_value = area.replace('㎡','')
    return np.float(new_value)
gz_house['house_area'] = gz_house['house_area'].apply(remove_m2)

经过上面的步骤,来看一下清洗完的数据集.


清理后的数据
每一列的数据类型

数据分析与可视化

1.房租的分布情况

最贵房租的房子和最低房租的房子长什么样?
gz_house[gz_house['house_price'] == 35000]
gz_house[gz_house['house_price'] == 800]
最贵
最低

最贵的房子面积达到了315㎡,每平方米均价为 35000 / 315= 111元;
最便宜的房子面积为76平米,每平方米均价为 800 / 76 = 11元,两者的房屋每平方米均价相差接近十倍!
最贵的房子位于珠江新城,地理位置处于广州的CBD位置,周边商圈林立,是最繁华的地段。而且房屋面积超过300㎡,附近还有地铁5号线和3号线经过,房租这么贵也正常。
最便宜的房子位于花都美林湖,位置偏僻,开车需要1-2小时才能到达,而且周边没有地铁,交通极不方便,所以虽然房屋面积不小,但是仍然是一个低的价格

房租价格直方图

广州大部分的租房的价格集中在2500至5000元的区间,其中以4000至4500的房源最多,超过8000以上的房源很少。
这个价格区间对于刚毕业的大学生来说还是比较贵的


2.面积的分布情况

面积分布

3.区域房源分布情况

4.地铁房源分布情况

5.双维度分析——同时考虑区域和房租

6.多维度分析——同时考虑房屋面积、价格和地铁之间的关系

将自变量设为房屋的面积,因变量设为房屋的价格,同时考虑房屋附近是否有地铁的因素,绘制散点图,并进行线性回归分析(这里用了2次多项式进行曲线的拟合)

7.多维分析——同时考虑面积、价格和区域之间的关系


分析结论

1.广州房居客绝大多数的房租都在3000元以上,面积均为中等户型,这个价位性价比属于比较高的,刚毕业的学生可以考虑
2.天河区的房源数量最多,价格也是第二贵的。天河区拥有广州的CBD,对于经常需要加班的白领来说,在公司附近租房是个不错的选择
3.有地铁的房源占调查总体的80%以上,如果在中心城区的租房价格超过承受能力,可以沿着地铁线路跨区找房,房源多,价格也相对低一点。


结语

快毕业了,希望这份分析报告能够帮助想要留在广州的同学都能找到自己喜欢的房子,在广州扎下根来。
有纰漏的地方还希望大家能够多多指正

上一篇 下一篇

猜你喜欢

热点阅读