北京的房价到底有多贵?我爬取了3万多条数据得出分析结果
北京的高房价破灭了众多北漂朋友追梦的希望,大家都知道北京房价很高,但是到底有多高呢?我在链家爬取了北京市3万多条二手房信息,并进行了详细分析。
第一步:模拟爬取数据
链家的网站不是很复杂,是一个基础的静态网页,数据变换通过网页页码变换实现,各类信息都在嵌入在网页中
首先我按照行政区划分,组成每个行政区第一页的url,主要为了在第一页下找到住房总套数,并根据其计算出总页数(每页30套房子),由于最多网站最多显示100页数据,所以大于100页时统一取100页。
接着在该循环下,再构造每个行政区下的后续页数url,用bs4解析网页,爬取每套房子户型、面积、总价、单价、位置等信息
最后,将数据保存在表格中
没敢用多线程,程序总共跑了20分钟,爬下了35139条数据
第二步:开始数据分析
单纯的看表格看不出什么东西,下面我用pyecharts从不同的角度对房价信息进行分析
1.画个各行政区域的平均单价柱状图
房价最高的是西城区平均单价为112828元/平米,最低的是密云区平均单价为24570元/平米,总的均价为50673元/平米,排除远郊,要想在五环以内买房单价起码要4万以上。
2.画出面积与总价的散点图
最贵的一套房子位于苹果园,总面积840平米,总价7300万,看这情况应该是没有四合院在里面;
第一视觉好像80%的房子总价都超过1000万,真实情况是仅有3000多套房子总价超过1000万,剩余30000多套都在1000万以下。
3.画出户型与套数的饼状图
由于户型种类太多了,总共有61种,所以我只取了数量较多的前十种,结果如图
最多的是2室1厅,紧接着是3室1厅,看来是中小户型比较受欢迎。
4.画出地段与价格的柱状图
单价最高的位置是德胜门,总共有51套房源,均价为144980元/平米,其余9个位置均价都在120000元以上,貌似要么在二环内,要么在海淀,而我们南城1个也没有。
小结:总的来说,不管从那个角度分析,北京的房价都太贵了,我还是老实接着搬砖挣钱吧。
文中所使用的代码已经请在“python的爬虫与数据分析之路”里回复关键字:北京北京
ps:微信群已经开通,想加入的朋友可以在公众号内获得群二维码,欢迎您的到来!
往期精彩: