​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

2020-03-24  本文已影响0人  小笨鸟_1d2f

北京的高房价破灭了众多北漂朋友追梦的希望,大家都知道北京房价很高,但是到底有多高呢?我在链家爬取了北京市3万多条二手房信息,并进行了详细分析。

​第一步:模拟爬取数据

链家的网站不是很复杂,是一个基础的静态网页,数据变换通过网页页码变换实现,各类信息都在嵌入在网页中

首先我按照行政区划分,组成每个行政区第一页的url,主要为了在第一页下找到住房总套数,并根据其计算出总页数(每页30套房子),由于最多网站最多显示100页数据,所以大于100页时统一取100页。

接着在该循环下,再构造每个行政区下的后续页数url,用bs4解析网页,爬取每套房子户型、面积、总价、单价、位置等信息

最后,将数据保存在表格中

没敢用多线程,程序总共跑了20分钟,爬下了35139条数据

第二步:开始数据分析

单纯的看表格看不出什么东西,下面我用pyecharts从不同的角度对房价信息进行分析

1.画个各行政区域的平均单价柱状图

房价最高的是西城区平均单价为112828元/平米,最低的是密云区平均单价为24570元/平米,总的均价为50673元/平米,排除远郊,要想在五环以内买房单价起码要4万以上。

2.画出面积与总价的散点图

最贵的一套房子位于苹果园,总面积840平米,总价7300万,看这情况应该是没有四合院在里面;

第一视觉好像80%的房子总价都超过1000万,真实情况是仅有3000多套房子总价超过1000万,剩余30000多套都在1000万以下。

3.画出户型与套数的饼状图

由于户型种类太多了,总共有61种,所以我只取了数量较多的前十种,结果如图

最多的是2室1厅,紧接着是3室1厅,看来是中小户型比较受欢迎。

4.画出地段与价格的柱状图

单价最高的位置是德胜门,总共有51套房源,均价为144980元/平米,其余9个位置均价都在120000元以上,貌似要么在二环内,要么在海淀,而我们南城1个也没有。

小结:总的来说,不管从那个角度分析,北京的房价都太贵了,我还是老实接着搬砖挣钱吧。

文中所使用的代码已经请在“python的爬虫与数据分析之路”里回复关键字:北京北京

ps:微信群已经开通,想加入的朋友可以在公众号内获得群二维码,欢迎您的到来!

往期精彩:

海外疫情发展态势怎么样?python动态视频20秒告诉你

基金抄底成功的概率有多大?python带你来分析

python骚操作之电脑自动刷抖音

用python画出某“毒王”的动态路线图

上一篇下一篇

猜你喜欢

热点阅读