数据分析之——探索美国共享单车项目

2018-11-12  本文已影响0人  圆蛋蛋嘿嘿嘿_eb77

项目概述:

利用 Python 探索三大美国城市的自行车共享系统相关的数据:芝加哥、纽约和华盛顿特区。此项目将使用 Motivate 提供的数据探索自行车共享使用模式,编写代码导入数据,并通过计算描述性统计数据回答有趣的问题。还将写一个脚本,该脚本会接受原始输入并在终端中创建交互式体验,以展现这些统计信息。部分数据如下:

报告内容:

数据分析过程主要分5个过程:

(1)预览数据,提出问题

(2)整理清洗数据

(3)分析数据

(4)得出结论

(5)传达结果

分析过程:

1.提出问题,通过此项目希望以下部分问题能得到回答:

1)起始时间(Start Time 列)中哪个月份最常见?

2)起始时间中,一周的哪一天(比如 Monday, Tuesday)最常见?

3)起始时间中,一天当中哪个小时最常见?

4)总骑行时长(Trip Duration)是多久,平均骑行时长是多久?

5)哪个起始车站(Start Station)最热门,哪个结束车站(End Station)最热门?

6)哪一趟行程最热门(即,哪一个起始站点与结束站点的组合最热门)?

7)每种用户类型有多少人?

8)每种性别有多少人?

9)出生年份最早的是哪一年、最晚的是哪一年,最常见的是哪一年?

2.查看数据,整理数据(此处省略)

3.分析数据,创建python脚本,实现交互式体验,并能逐步实现以上问题的输出:

在工作区左侧可看到三个城市的数据集,及创建的脚本bikeshare.py

而在脚本中需要定义以下几个函数,

get_filters():请用户指定要分析的城市、月份和日期

load_data(city, month, day):为指定的城市,按月和天加载适用的数据,相当于把输入的数据过滤为python中数据可接受的形式。

time_stats( ):显示旅行最频繁次数的统计数据,包括最受欢迎的月分,一周中的天数,小时等

station_stats( ):显示最受欢迎的车站和旅行的统计数据。

trip_duration_stats():显示总行程和平均行程持续时间的统计数据。

user_stats():显示关于自行车用户的统计信息。

main():给出是否需要重新进行的程序。

4.运行脚本以下为运行python脚本后,自动弹出需要输入的信息

输入相应的信息后,得到相应的描述性统计信息,比如最频繁的车站,月份,时段(小时),用户信息等

5.得出结论

对于芝加哥,

需求时间信息:

使用共享自行车最频繁的月份6月,一周中周二使用率最高,一天中下午17:00对共享自行车的需求最大;

需求地点信息:

需求最大的开始车站为:Streeter Dr & Grand Ave,最终车站为:Streeter Dr

& Grand Ave,最频繁的车程是:Streeter Dr & Grand Ave->Lake Shore Dr & Monroe St;

用户信息:

已注册的用户是非注册用户的4倍,已注册用户的使用率更高,

男性比女性的使用率更高,男性差不多是女性的3倍

最常用的用户出生在1989年

上一篇下一篇

猜你喜欢

热点阅读