python数据分析与挖掘实战
2018-01-23 本文已影响0人
ICDI_z
前三章:
1,python中的常见库:
2,截断均值是去掉高低极端值之后的平均数。
3,众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更用于定性变量。众数不具有唯一性。
4,极差=最大值-最小值
5,标准差: 标准差度量数据偏离均值的程度,计算公式为:
6,变异系数
变异系数度量标准差相对于均值的集中趋势,计算公式为:
7,统计量分析:均值,中位数,众数。
8,集中趋势度量:极差,标准差,变异系数,4分位数间距
9,周期性分析和贡献度分析
10,相关系数
10.1 Pearson相关系数
一般用于分析两个连续性变量之间的关系,其计算公式如下。
10.2Spearman秩相关系数
Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。
其计算公式如下:
只要两个变量具有严格单调的函数关系,那么他们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有箱型关系时才是完全相关的。
11,pandas 主要统计函数特征函数:
其中corr()中有一个参数method 参数,支持pearson , kendall ,spearman
12,累计统计特征函数:
注意:
pd.rolling_sum(D) D为Series对象
14,统计做图函数