数据分析的基本过程

2018-05-03 本文已影响660人 Rich_Billions

Live 简介：

谁适合本课程？
想从零开始学会数据分析，实现升职加薪或者转行数据分析的你，零基础即可加入。
你将从本次课程中学到什么？
通过真实案例数据集，从开始到结束，使用 Numpy 和Pandas 了解整个数据分析过程。

内容大纲：

数据分析的基本过程是什么？
如何使用Numpy和Pandas分析一维数据？
如何使用Numpy和Pandas分析二维数据？
你将挑战的实战项目：如何用Python对销售数据进行分析？

1、斜杠青年的问题在哪里？

我们现在把这种有多重身份的人叫做斜杠青年。

很多人也受此影响开始各种跨界，但是跨界并没有成功，还影响了原本自己的收入，那么跨界的问题出在哪里呢？

要想跨界并且跨界成功有一个前提条件，那就是你要先在某个领域里做成一件事情。在我们决定了做一件事情以后，不管是业余爱好还是工作外的其他事情，都要按照专业水平去做，不能因为这只是一个业余爱好就放低对自己的要求，而是应该用专业和职业的要求去系统地学习。

在这个商业社会，有很多公司是跨界的，同样有很多公司是聚焦的。判断一个公司价值是否重要的标准就是，如果世界上少了这家公司对我们的生活有没有影响。例如：如果一家银行倒闭了，我们可以换其他的银行。但是如果腾讯和阿里巴巴倒闭了，那就影响很大了。

同样的道理，我们也可以根据这个标准来评价自己是不是具有不可替代的核心竞争优势。例如：有一个好的数据分析师，公司缺少了他就不能看到有价值的数据分析报告，从而无法完成正确的决策，那么这个人就是有不可替代性的！

所以我们要在一个方向上把自己打磨成具有专业水平的人才，让自己具有不可替代性，从而增加自己的收入。

世界上最大的技术问答平台 Stack Overflow 在2017年有一份数据报告，这份报告显示：django 和 flask 是用于web开发的Python包，在数据分析领域中用到最多的Python包是 numpy、pandas 和 matplotlib。

其中numpy是用于数学计算，比如线性代数中的矩阵计算（在机器学习中非常有用）；pandas是基于numpy的数据分析工具，该工具是为了解决数据分析任务而创建的，它提供了一套名为数据框的数据结构，可以方便地对表结构的数据进行分析；matplotlib是一个图形绘制库，专门用于数据分析结果的可视化。

下面我们详细介绍numpy和pandas这两个数据分析包的使用，最后通过完成一个数据分析项目来实践我们学习的理论知识。至于数据分析结果的可视化，可以参考如何用Python绘图和制作数据分析报告？

2、一维数据分析：Numpy

numpy 和 pandas 都有表示一维数据的特殊数据结构。

在 pandas 中，它的一维数据结构叫做：Series；
在 numpy 中，它的一维数据结构叫做：Array（数组）。
Series比Array的功能更多。

pandas是建立在numpy的基础上的，首先我们需要掌握numpy的一维数组Array。

切片操作部分，不包括结尾部位：
通常一个切片操作要提供三个参数
[start_index: stop_index: step]
start_index是切片的起始位置
stop_index是切片的结束位置（不包括）
step可以不提供，默认值是1，步长值不能为0，不然会报错ValueError。

numpy 数组中的每个元素都必须是同一种数据类型，而列表中的元素可以是不同的数据类型。

3、练习：使用Numpy存放一维数据

4、一维数据分析：Pandas

5、练习：存放6家公司今天的股价

6、二维数据分析：Numpy

二维数据结构是指这个数据既有行又有列，有点类似于Excel里的二维表格。

在numpy中通过Array来创建一个二维数组，在pandas中通过一个叫做数据框（DataFrame）的数据结构来创建二维数组。

7、练习：如何使用numpy二维数组？

8、二维数据分析：Pandas

numpy数组中的每一个元素都属于同一种数据类型，这在数值计算和科学计算中是非常有用的。但是它不利于我们表示类似于Excel中的内容，因为Excel中每一列的数据类型可能都不一样。这时候pandas中的二维数组DataFrame （数据框）就派上用场了。

DataFrame 相对于 Array 的两个优点：
① DataFrame 的每一列数据可以是不同类型，这就方便表示 Excel 中的数据内容了。
② DataFrame 也有索引的功能，这使得其很容易存储常见的表格数据。

loc属性用于根据索引查询值用的最多，应熟练掌握！！！

9、练习：从数据框中获取销售数据

10、数据框复杂查询

11、练习：听歌曲获取描述统计信息

12、数据分析的基本过程

数据分析步骤：

提出问题
一切数据分析的目的都是为了解决我们生活或工作中的实际问题，明确的问题为我们后续的数据分析提供了一个大的方向和目标。

理解数据
① 采集数据；
② 导入数据；
③ 查看数据集的信息，包括描述统计信息，从整体上理解数据。

数据清洗（数据预处理）

构建模型
对清洗过的数据进行分析。简单的分析就是得出一些业务指标；复杂的分析就要用到机器学习的算法来构建模型。

数据可视化
与他人交流你的研究成果，最好的展示方式就是图表。

13、提出问题

在实际数据分析项目中，前期我们就需要和业务人员一起讨论明确他们的需求以及各个指标的计算公式。

14、理解数据

15、练习：理解数据

16、数据清洗的步骤

在数据分析的工作中，有多达60%的时间是花在了分析前数据的清洗上的。比如处理缺失数据、删除异常值等等。

数据预处理的目的是把数据改变为我们喜欢的样子，以便于后期的数据探索和分析。

业务部门给我们的原始数据很多时候并不符合我们数据分析的需求，这时候就需要对数据进行清洗。

原始数据经常会由于记录缺失错误，这时候就会导致有些数据是缺失的。我们可以采用两种办法来处理：
① 直接删除缺失的数据；
② 如果缺失数据太多，我们可以通过建立模型进行插值的办法来补充这些数据。（以后在机器学习中具体集合算法介绍）

17、练习：社保卡号缺失值处理

18、数据清洗：类型转换

由此可见，数据清洗的几个步骤不是运行一次就OK的，需要不断反复地根据数据清洗的目的反复做几次！！！

19、练习：学习利用搜索引擎解决问题

两个学习道具：
1）这个网页可以调用全球最大的搜索引擎（长按此处可以复制）：https://busca.uol.com.br/
2）全球最大的技术问答平台Stack Overflow如何使用（长按此处可以打开链接）：如何优雅地使用 Stack Overflow？

20、数据清洗：排序

21、练习：对销售时间进行排序

22、数据清洗：异常值处理

23、练习：销售数据异常值处理

24、构建模型：月均消费次数

25、练习：计算业务指标1

26、构建模型：月均消费金额和客单价

门店的销售金额是由客单价和顾客数所决定的。因此要提升门店的销售额，除了尽可能多的吸引顾客，增加顾客交易的次数以外，提高客单价也是非常重要的途径。

27、练习：计算业务指标2、3

28、总结

到目前为止我们已经完成了3个业务指标的分析计算，只剩1个业务指标——数据趋势。它的分析需要用到pandas的更多高级功能和数据可视化方面的内容，这块内容会在之后的课程中详细地介绍。