python数据分析与挖掘实战

2018-01-23 本文已影响0人 ICDI_z

前三章:

1，python中的常见库：

2，截断均值是去掉高低极端值之后的平均数。

3，众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置，更用于定性变量。众数不具有唯一性。

4，极差=最大值-最小值

5，标准差: 标准差度量数据偏离均值的程度，计算公式为：

6，变异系数

变异系数度量标准差相对于均值的集中趋势，计算公式为：

7，统计量分析：均值，中位数，众数。

8，集中趋势度量：极差，标准差，变异系数，4分位数间距

9，周期性分析和贡献度分析

10，相关系数

10.1 Pearson相关系数

一般用于分析两个连续性变量之间的关系，其计算公式如下。

10.2Spearman秩相关系数

Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量，分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。

其计算公式如下:

只要两个变量具有严格单调的函数关系，那么他们就是完全Spearman相关的，这与Pearson相关不同,Pearson相关只有在变量具有箱型关系时才是完全相关的。

11，pandas 主要统计函数特征函数：

其中corr()中有一个参数method 参数，支持pearson , kendall ,spearman

12,累计统计特征函数：

注意:

pd.rolling_sum(D) D为Series对象

14，统计做图函数