Python数据分析

2、Python二手房数据分析之数据简易分析

2018-01-07  本文已影响834人  让数据告诉你

读取上一步清洗好的数据:

读取源数据

查看重复的行

查看重复的行

可以看到都是停车位,看来是有人专门买了一大批的车位来再次出售,当然也可能是开发商自己出售的,这个并不是数据的重复,而且有多个同样的车位导致的重复。

去除重复值

为了避免车位的影响过大,我们只保留不重复的,去除重复值并且保留第一个值

查看前N的数据:

直接查看挂牌时间列的前五行数据:

不排序选取前五

这个只是查看前五行的,而不是挂牌时间排在前五的数据,我们要看挂牌时间排在前五的需要有两个方法,一个是先排序(sort_values),然后使用head()提取;

排序按数值大小 选取前五

另一个是使用nlargest()函数来提取,nlargest()函数的第一个参数表示要选取的个数,第二个表示要选取的依据的列,这个函数使用在需要分组排序的时候非常有用:

排序和分组

我们还可以进行多个维度的分组排序:

多列分组排序

查看数据的整体情况

数据的整体情况

由于有车位的影响会导致整体的数据有所出入,所以我们去掉车位看看数据是怎么样的:

去掉车位的数据

可以看到,最大面积为接近一千五百平,挂牌时间最长的接近三年都没有卖出去,有的带一百六十多客户去看房都还没有成交,我们现在就看看这些房子都是在哪里的?

总价的均值在479万,中位数在392万,75%价位在600万以下,看来高价位的房子还不是个别的,也是呈现一个二八定律;

平均挂牌时长接近半年的时间,可以看出厦门最近的房地产不是很景气了;

去掉车位之后面积、单价和总价整体都变大了,其它的数据影响倒不是很大。

1、看看面积较大的房子是不是都是别墅呢?

按面积大小排序

面积一千多平米的不是别墅,而且一个整层,而且还是楼层,可能是店面的概率比较大(此地不是办公楼,如果有具体的第几层的数据那么判断的概率就更高了)

2、接下来我们看看挂牌时间比较长的是哪些房子:

挂牌时间比较长的房子

挂牌时长最长的是国贸天琴湾附近的,可能是因为去年的厦门的台风风口就在五缘湾那边,一场台风均价十来万的房子的玻璃都碎了一地,差点就变成了危房,从而影响到后面那个地区房子的成交的吧(不过实话实说,那边的环境确实是美)?

3、那客户看的多但是又没有人买的房子是在哪个地区的呢?有哪些呢?

带看数量较多的房源

带看人数排在前面的是湖里区,这个地区人数也比较多,刚需的人在岛内更多的是在湖里买房比较多,所以带看人数整体排在前面也是正常的。

进一步查看各个地区的房源情况

每个区的房源数量

可以看到房源数方面思明和湖里远远多于其它地区,而同安和翔安却只有这两个地区的房源却不足百套。在跟进实际的情况了解到其实翔安和同安地区就跟其它三四线城市的小县城一样,繁华的地区还是在岛内。

从图中还可以看出,停车位的销售也还是蛮多的,单岛内一个区的在售停车位数量就比同安和翔安两个区的房源还多。

每个区的房源均价

思明和湖里的均价都在五万以上了,岛外地区的均价也都高于三万,以厦门人均五千的月工资,这样的房价着实是高的可怕,怪不得经常在网上看到说在厦门就是拿着三四线的工资过着一线城市的消费水平。

看了每个区的房价情况之后,肯定也很想知道,房源均价最高的是在哪些小区,土豪们都是在哪些小区住的?

总价较高的小区

房价较高的都是别墅区。

单价最高的小区

单价最高的居然有同安区的房源?吓得我赶紧把地区也加进去查询一下看看,同安里和同安路5号到底是不是在同安的?

以地区和小区分组计算均价

原来同安里和同安路5号是属于思明区的,具体的位置是在鼓浪屿对面,也难怪价格那么高了。

由上图我们还可以看出,房子均价排在前面的除了一个特房五缘湾尊墅属于湖里的之外,基本都是属于思明区的(谁叫市政府、厦门大学、鼓浪屿、曾厝垵、中山路、轮渡、中山公园、会展中心等等你能知道的比较有名的地方基本上都在思明区呢)。

知道了房价最高的都在哪里,现在是不是想知道房源比较多的又是在哪个地方呢?

房源排前十五的地区 房源排前十五的小区

可以看出房源最多的几个地区和小区都不是均价最高的那几个,这个是否也说明了房价呈现是也是一种二八定律?这个等到可视化部分我们在讨论。

海沧和集美作为市政府最近几年大力建设的一个区,房源也是最多的(凭良心讲海沧地区的城市建设比岛内的好多了,城市的建设也更加的现代化,因此有海沧新城的简称)。

看完了房价和房源,接下来我们看看在售房子装修情况是什么样的呢?二手房是装修的多还是毛坯或者简装的多呢?

房源装修情况

从以上数据可以看出,二手房大多还是有居住过然后进行再次出售的比较多,那些买来纯投资住也不住的还是占少数的(当然了,装修了的也可能是属于投资的)。

不同装修情况的房源均价

不同装修风格的房源均价的差别并没有特别的规律,海沧和湖里毛坯房居然会比较精装的还贵?这个可能跟房源的建筑时间有关系。

不同装修风格的房源最高最低价之间的差价

湖里和思明区最大单价和最小单价之间相差了十多万,贫富差距现在那么大了吗?继续查询可知单价较高的都是别墅,单价较低是是一些单间的公寓(而且是没有产权的)。

#如果列名是英语的可以写成df1.groupby(['地区','装修']).price.agg(['count','mean',lambda x:max(x)-min(x)]).unstack()

还有比如户型与小区之间的关系?

带看人数与小区之间的关系?

带看人数与建筑年份之间的关系?

带看人数与房子价格之间的关系?

关注人数与房子价格之间的关系?

关注人数和带看人数与房子面积、建筑年份之间的关系?

高中低楼层哪个关注的比较多?

高中低楼层哪个卖的比较多?

哪个朝向的房源面积比较大?

每个朝向的房源装修风格怎么样?

房子价格与楼型、房子的朝向有关系吗?

房子上次交易和挂牌时间相差多久?

等等这些情况就让大家摸索了。

上一篇 下一篇

猜你喜欢

热点阅读