利用Excel分析爱彼迎(2019/纽约)数据

2019-10-09  本文已影响0人  艾马丫

爱彼迎数据分析(纽约/2019)

一、分析背景与目的

背景:爱彼迎( Airbnb)成立于2008年8月,总部设在美国加州旧金山市,是一个旅行房屋租赁社区,用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。据官网显示以及媒体报道,其社区平台在191个国家、65000个城市为旅行者们提供数以百万计的独特入住选择。

目的:

1. 探索哪些地区的房子更受欢迎;

2. 探索哪种房型最受欢迎;

3. 探索住宿价格与位置和房型的关系;

二、数据来源与分析工具

数据来源Kaggle:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

分析工具:Excel

三、数据探索

数据探索流程

3.1数据探索:

原始数据大小:48576*16;

各列数据意义:

id: listing ID(清单id)

name: name of the listing(清单名)

host_id: host ID(房主id)

host_name: name of the host(房主名)

neighbourhood_group: location(位置)

neighbourhood: area(区域)

latitude: latitude coordinates(纬度)

longitude: longitude coordinates(经度)

room_type: listing space type(房屋类型)

price: price in dollars(价格)

minimum_nights: amount of nights minimum(最小住宿夜晚数)

number_of_reviews: number of reviews(浏览数)

last_review: latest review(最近浏览时间)

reviews_per_month: number of reviews per

month(每月浏览数)

calculated_host_listings_count: amount of

listing per host(每个房主的清单数)

availability_365: number of days when listing is available for booking(可供预定的天数)

3.2 数据处理:

a) 数据删除处理:

name和host_name列,本次数据分析中无影响,故而删除;

b) 重复值处理:

运用countif函数,根据清单id确认有无重复值——经确认,数据无重复;

重复值处理

c) 缺失值处理:

缺失值有4种处理方法:人工手动补全,删除缺失数据,用平均值/中位数/众数代替,用统计模型计算出的值代替;此次对缺失数据直接进行删除。

判断:选中整列查看右下角计数,对比其它列,判断是否存在缺失值。

删除:定位缺失值-选中数据区域-开始选项卡-查找和选择-定为条件-空值-删除整行。

缺失复值处理

d) 异常值处理

1. 针对每列查看数据是否异常,初步筛选方法为观察数据类型是否一致(如:房间类型中出现数值类型数据,为异常值,采取措施为删除);

异常值处理

2. 价格列出现较大异常值,根据数据规律删除>3000的数据;

四、数据分析正文

4.1哪个地区房子最受欢迎

利用数据透视表分类汇总位置对住宿订单的影响,可视化。

地区租房占比 房屋经度分布 房屋纬度分布

结果表明80%以上的住宿位于Manhattan(经-74.6/纬40.73)和Brooklyn地区,二者占比相当,均很受欢迎,其余地区入住相对很少。

4.2哪种房型更受欢迎


房型占比

Entire home/apt.最受欢迎,其次是Private room, 二者占整体的98%,剩下极少部分为share room。

4.3住宿价格


各地区平均出租价格


各房型平均出租价格

Manhattan地区的住宿价格最贵,其次为Brooklyn,且Manhattan为Brooklyn价格的1.48倍,其余三个地区价格相当。

Entire home/apt.房型的价格最贵。

五、结论

1. 地区位置是影响房屋出租的重要因素,Manhattan和Brooklyn地区的租住数相对较多;

2. 在房屋类型中,Entire home/apt.是最受人们喜爱的;

3.  地区和房型对租房价格影响较大,粗略来看,Manhattan地区和Entire home/apt.房型的价格相对较贵。

上一篇下一篇

猜你喜欢

热点阅读