python数据分析与挖掘实战
2018-01-23 本文已影响0人
ICDI_z
前三章:
1,python中的常见库:
![](https://img.haomeiwen.com/i9791208/200a6dd525bab76a.png)
2,截断均值是去掉高低极端值之后的平均数。
3,众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更用于定性变量。众数不具有唯一性。
4,极差=最大值-最小值
5,标准差: 标准差度量数据偏离均值的程度,计算公式为:
![](https://img.haomeiwen.com/i9791208/75a927495f13c6c9.png)
6,变异系数
变异系数度量标准差相对于均值的集中趋势,计算公式为:
![](https://img.haomeiwen.com/i9791208/180555fcfca18f6e.png)
7,统计量分析:均值,中位数,众数。
8,集中趋势度量:极差,标准差,变异系数,4分位数间距
9,周期性分析和贡献度分析
10,相关系数
10.1 Pearson相关系数
一般用于分析两个连续性变量之间的关系,其计算公式如下。
![](https://img.haomeiwen.com/i9791208/b2d485187c7f3fae.png)
10.2Spearman秩相关系数
Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。
其计算公式如下:
![](https://img.haomeiwen.com/i9791208/ccdca33813f06a5e.png)
只要两个变量具有严格单调的函数关系,那么他们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有箱型关系时才是完全相关的。
11,pandas 主要统计函数特征函数:
![](https://img.haomeiwen.com/i9791208/e9da92a36c61b9a9.png)
其中corr()中有一个参数method 参数,支持pearson , kendall ,spearman
12,累计统计特征函数:
![](https://img.haomeiwen.com/i9791208/9482488b5691c320.png)
注意:
![](https://img.haomeiwen.com/i9791208/c05ee6e4707a465d.png)
pd.rolling_sum(D) D为Series对象
14,统计做图函数
![](https://img.haomeiwen.com/i9791208/1c6b37a60e46494a.png)