Series第七讲计算/描述统计(上)

2020-09-22 本文已影响0人 butters001

Series第七讲计算/描述统计(上)

本节课将讲解Pandas-Series的计算/描述统计，由于接口过多，将分为上下两讲分别进行说明介绍。

计算/描述统计(上)

Series.abs()
Series.all()
Series.any()
Series.autocorr()
Series.between()
Series.clip()
Series.corr()
Series.count()
Series.cov()
Series.cummax()
Series.cummin()
Series.cumprod()
Series.cumsum()
Series.describe()
Series.diff()
Series.factorize()
Series.kurt()
Series.mad()
Series.max()
Series.min()
Series.mean()
Series.median()

详细介绍

首先导入所需依赖包

In [1]: import numpy as np                                                               
In [2]: import pandas as pd

1. `Series.abs()`

Series.abs()

对每个value求绝对值，注意⚠️：该方法仅适用于值全为数字元素的Series或DataFrame。

In [7]: pd.Series([1, 2, 3, -4]).abs()                                                                                                  
Out[7]: 
0    1
1    2
2    3
3    4
dtype: int64

In [8]: df = pd.DataFrame({ 
   ...:     'a': [4, 5, 6, 7], 
   ...:     'b': [10, 20, 30, 40], 
   ...:     'c': [100, 50, -30, -50] 
   ...: })                                                                                                                              

In [9]: df.abs()                                                                                                                        
Out[9]: 
   a   b    c
0  4  10  100
1  5  20   50
2  6  30   30
3  7  40   50

2. `Series.all()`

Series.all(axis=0, bool_only=None, skipna=True, level=None, **kwargs)

元素全为True返回True，否则返回False。(DataFrame沿轴计算)。

常用参数介绍：

axis：{0 or ‘index’, 1 or ‘columns’, None}, default 0 【作用轴，针对DataFrame】
- 0/‘index’：返回索引是列标签的Series
- 1/‘columns’：返回索引是行标签的Series
- None：作用于所有的轴，返回一个标量
skipna：bool, default True 【跳过NaN值】

In [11]: pd.Series([True, False]).all()                                                                                                 
Out[11]: False

In [12]: pd.Series([True, None]).all()                                                                                                  
Out[12]: True


In [19]: df = pd.DataFrame({'col1': [True, True], 'col2': [True, False]})                                                               
In [20]: df.all()                                                                                                                       
Out[20]: 
col1     True
col2    False
dtype: bool

In [21]: df.all(axis=1)                                                                                                                 
Out[21]: 
0     True
1    False
dtype: bool

In [22]: df.all(axis=None)                                                                                                              
Out[22]: False

3. `Series.any()`

Series.any(axis=0, bool_only=None, skipna=True, level=None, **kwargs)

至少有一个元素为True就返回True，否则返回False。参数同all()方法。

In [28]: pd.Series([True, False]).any()                                                                                                 
Out[28]: True

In [29]: pd.Series([False, False]).any()                                                                                                
Out[29]: False

4. `Series.autocorr()`

Series.autocorr(lag=1)

求Series的自相关

常用参数介绍：

lag：int, default 1 【执行自相关之前要应用的滞后次数】

In [32]: c_s = pd.Series([0.25, 0.5, 0.2, -0.05])                                                                                       
In [33]: c_s.autocorr()                                                                                                                 
Out[33]: 0.1035526330902407

# 实现原理其实就是如下，下面两个方法后面都会介绍到
In [35]: c_s.corr(c_s.shift(1))                                                                                                         
Out[35]: 0.1035526330902407

5. `Series.between()`

Series.between(left, right, inclusive=True)

表示每个元素是否在左右之间（包括左和右）的Series。等效于 (left <= ser) & (ser <= right)。

注意⚠️：只能数字与数字、str与str比较。

常用参数介绍：

inclusive：bool, default True 【是否包含边界值】

In [42]: c_s.between(0.24, 0.50)                                                                                                        
Out[42]: 
0     True
1     True
2    False
3    False
dtype: bool

In [43]: (0.24 <= c_s) & (c_s <= 0.50)                                                                                                  
Out[43]: 
0     True
1     True
2    False
3    False
dtype: bool

6. `Series.clip()`

Series.clip(lower=None, upper=None, axis=None, inplace=False, *args, **kwargs)

修剪数据。小于lower的值替换为lower；大于upper的值替换为upper。

同样int与int比较，str与str比较。

常用参数介绍：

lower：float or array_like, default None

In [47]: pd.Series(['a', 'b', 'c', 'd', 'e', 'f']).clip('b', 'd')                                                                       
Out[47]: 
0    b
1    b
2    c
3    d
4    d
5    d
dtype: object

In [49]: c_s.clip(0.20, 0.25)                                                                                                           
Out[49]: 
0    0.25
1    0.25
2    0.20
3    0.20
dtype: float64

# 应用array_like类型
In [50]: t = pd.Series([2, -4, -1, 6, 3])                                                                                               
In [51]: df = pd.DataFrame({'col_0': [9, -3, 0, -1, 5], 'col_1': [-2, -7, 6, 8, -5]})                                                   
In [52]: df.clip(t, t + 4, axis=0)                                                                                                      
Out[52]: 
   col_0  col_1
0      6      2
1     -3     -4
2      0      3
3      6      8
4      5      3

clip.png

7. `Series.corr()`

Series.corr(other, method='pearson', min_periods=None)

计算两个Series的相关性，排除缺失值。

常用参数介绍：

method：{‘pearson’, ‘kendall’, ‘spearman’} or callable 【计算相关性的方法】
- pearson：标准相关系数
- kendall：Kendall Tau相关系数
- Spearman：Spearman等级相关
- callable：输入两个1d ndarray并返回浮点数的可调用对象

In [56]: def histogram_intersection(a, b): 
    ...:     v = np.minimum(a, b).sum().round(decimals=1) 
    ...:     return v                                                                                                                               

In [57]: s1 = pd.Series([.2, .0, .6, .2]) 
    ...: s2 = pd.Series([.3, .6, .0, .1]) 
    ...: s1.corr(s2, method=histogram_intersection)                                                                                     
Out[57]: 0.3

8. `Series.count()`

Series.count(level=None)

返回Series中非空值的数量

In [59]: s = pd.Series([0.0, 1.0, np.nan])                                               
In [60]: s.count()                                                                                                                      
Out[60]: 2

9. `Series.cov()`

Series.cov(other, min_periods=None, ddof=1)

计算Series的协方差，排除缺失值。

In [58]: s1 = pd.Series([0.90010907, 0.13484424, 0.62036035]) 
    ...: s2 = pd.Series([0.12528585, 0.26962463, 0.51111198]) 
    ...: s1.cov(s2)                                                                                                                     
Out[58]: -0.01685762652715874

10. `Series.cummax()`

Series.cummax(axis=None, skipna=True, *args, **kwargs)

沿轴计算累积最大值。

In [61]: pd.Series([2, np.nan, 5, -1, 0]).cummax()                                                                                      
Out[61]: 
0    2.0
1    NaN
2    5.0
3    5.0
4    5.0
dtype: float64

11. `Series.cummin()`

Series.cummin(axis=None, skipna=True, *args, **kwargs)

沿轴计算累积最小值。

In [62]: pd.Series([2, np.nan, 5, -1, 0]).cummin()                                                                                      
Out[62]: 
0    2.0
1    NaN
2    2.0
3   -1.0
4   -1.0
dtype: float64

12. `Series.cumprod()`

Series.cumprod(axis=None, skipna=True, *args, **kwargs)

沿轴计算累积相乘。

In [63]: pd.Series([2, np.nan, 5, -1, 0]).cumprod()                                                                                     
Out[63]: 
0     2.0
1     NaN
2    10.0
3   -10.0
4    -0.0
dtype: float64

13. `Series.cumsum()`

Series.cumsum(axis=None, skipna=True, *args, **kwargs)

沿轴计算累积相加。

In [64]: pd.Series([2, np.nan, 5, -1, 0]).cumsum()                                                                                      
Out[64]: 
0    2.0
1    NaN
2    7.0
3    6.0
4    6.0
dtype: float64

14. `Series.describe()`

Series.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)

生成描述性统计信息.

常用参数介绍：

percentiles：list-like of numbers, optional 【包含在输出中的百分比。所有值都应介于0和1之间。默认为返回第25、50和75个百分位数。[.25, .5, .75]】
include：‘all’, list-like of dtypes or None (default), optional 【要包括在结果中的数据类型的白名单，该参数只对DataFrame有效】
- ‘all’: All columns of the input will be included in the output 【包含全部类型列】
- A list-like of dtypes: Limits the results to the provided data types 【自定义类型列表】
- None (default): The result will include all numeric columns 【仅包含全部数值类型列】
exclude：list-like of dtypes or None (default), optional 【要从结果中忽略的数据类型】
datetime_is_numeric：bool, default False 【是否将datetime dtypes视为数字类型】

# 描述一个数值型的Series
In [65]: s = pd.Series([1, 2, 3]) 
    ...: s.describe()                                                                                                                   
Out[65]: 
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64

# 描述一个str型的Series
In [66]: s = pd.Series(['a', 'a', 'b', 'c']) 
    ...: s.describe()                                                                                                                   
Out[66]: 
count     4
unique    3
top       a
freq      2
dtype: object

# 描述一个时间戳的Series
In [70]: s = pd.Series([ 
    ...:   np.datetime64("2000-01-01"), 
    ...:   np.datetime64("2010-01-01"), 
    ...:   np.datetime64("2010-01-01") 
    ...: ]) 
    ...: s.describe()                                                                                                                   
Out[70]: 
count                       3
unique                      2
top       2010-01-01 00:00:00
freq                        2
first     2000-01-01 00:00:00
last      2010-01-01 00:00:00
dtype: object

15. `Series.diff()`

Series.diff(periods=1)

计算当前元素与自己的第前periods的差值，periods可以为负数(负数时与后第periods比较)。

In [72]: s = pd.Series([1, 1, 2, 3, 5, 8]) 
    ...: s.diff()                                                                                                                       
Out[72]: 
0    NaN
1    0.0
2    1.0
3    1.0
4    2.0
5    3.0
dtype: float64

16. `Series.factorize()`

Series.factorize(sort=False, na_sentinel=-1)

将对象编码为枚举(enumerated)类型或分类(categorical)变量。

常用参数介绍：

sort：bool, default False 【是否将返回值进行排序 uniques的排序优先级高】
na_sentinel：int or None, default -1 【如何标记NaN值，注意⚠️ uniques默认不会包含缺失值。如果需要pandas中包含NaN，可以设置na_sentinel为None】

返回值介绍：

codes：ndarray 【An integer ndarray，是uniques的索引器】
uniques：ndarray, Index, or Categorical 【唯一有效值】

In [73]: codes, uniques = pd.factorize(['b', 'b', 'a', 'c', 'b'])                                                                       
In [74]: codes                                                                                                                          
Out[74]: array([0, 0, 1, 2, 0])
In [75]: uniques                                                                                                                        
Out[75]: array(['b', 'a', 'c'], dtype=object)

# 排序
In [76]: codes, uniques = pd.factorize(['b', 'b', 'a', 'c', 'b'], sort=True)             
In [77]: codes                                                                                                                          
Out[77]: array([1, 1, 0, 2, 1])
In [78]: uniques                                                                                                                        
Out[78]: array(['a', 'b', 'c'], dtype=object)

# 当Series存在缺失值时
In [80]: codes, uniques = pd.factorize(['b', None, 'a', 'c', 'b'])                       
In [81]: codes                                                                                                                          
Out[81]: array([ 0, -1,  1,  2,  0])
In [82]: uniques                                                                                                                        
Out[82]: array(['b', 'a', 'c'], dtype=object)

# Series直接调用
In [88]: pd.Series([1, 1, 2, 3, 5, 8]).factorize()                                                                                      
Out[88]: (array([0, 0, 1, 2, 3, 4]), Int64Index([1, 2, 3, 5, 8], dtype='int64'))

17. `Series.kurt()`

Series.kurt(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

在请求的轴上返回无偏峰度。使用费舍尔峰度定义（正常峰度== 0.0）获得峰度。由N-1归一化。

In [89]: pd.Series([1, 1, 2, 3, 5, 8]).kurt()                                                                                           
Out[89]: 0.5859374999999982

18. `Series.mad()`

Series.mad(axis=None, skipna=None, level=None)

返回所请求轴的值的平均绝对偏差。

In [90]: pd.Series([1, 1, 2, 3, 5, 8]).mad()                                                                                            
Out[90]: 2.111111111111111

19. `Series.max()`

Series.max(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

沿指定轴计算最大值

In [91]: pd.Series([1, 1, 2, 3, 5, 8]).max()                                                                                            
Out[91]: 8

20. `Series.min()`

Series.min(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

沿指定轴计算最小值

In [91]: pd.Series([1, 1, 2, 3, 5, 8]).min()                                                                                            
Out[91]: 1

21. `Series.mean()`

Series.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

沿指定轴计算平均值

In [91]: pd.Series([1, 1, 2, 3, 5, 8]).mean()                                                                                            
Out[91]: 3.3333333333333335

22. `Series.median()`

Series.median(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

沿指定轴计算中位数

# 偶数时中间两数相加/2
In [91]: pd.Series([1, 1, 2, 3, 5, 8]).median()                                                                                            
Out[91]: 2.5

Series第七讲计算/描述统计(上)

Series第七讲计算/描述统计(上)

计算/描述统计(上)

详细介绍

1. `Series.abs()`

2. `Series.all()`

常用参数介绍：

3. `Series.any()`

4. `Series.autocorr()`

常用参数介绍：

5. `Series.between()`

常用参数介绍：

6. `Series.clip()`

常用参数介绍：

7. `Series.corr()`

常用参数介绍：

8. `Series.count()`

9. `Series.cov()`

10. `Series.cummax()`

11. `Series.cummin()`

12. `Series.cumprod()`

13. `Series.cumsum()`

14. `Series.describe()`

常用参数介绍：

15. `Series.diff()`

16. `Series.factorize()`

常用参数介绍：

返回值介绍：

17. `Series.kurt()`

18. `Series.mad()`

19. `Series.max()`

20. `Series.min()`

21. `Series.mean()`

22. `Series.median()`

猜你喜欢

热点阅读

Series第七讲 计算/描述统计(上)

Series第七讲 计算/描述统计(上)

计算/描述统计(上)

详细介绍

1. Series.abs()

2. Series.all()

常用参数介绍：

3. Series.any()

4. Series.autocorr()

常用参数介绍：

5. Series.between()

常用参数介绍：

6. Series.clip()

常用参数介绍：

7. Series.corr()

常用参数介绍：

8. Series.count()

9. Series.cov()

10. Series.cummax()

11. Series.cummin()

12. Series.cumprod()

13. Series.cumsum()

14. Series.describe()

常用参数介绍：

15. Series.diff()

16. Series.factorize()

常用参数介绍：

返回值介绍：

17. Series.kurt()

18. Series.mad()

19. Series.max()

20. Series.min()

21. Series.mean()

22. Series.median()

猜你喜欢

热点阅读

Series第七讲计算/描述统计(上)

Series第七讲计算/描述统计(上)

1. `Series.abs()`

2. `Series.all()`

3. `Series.any()`

4. `Series.autocorr()`

5. `Series.between()`

6. `Series.clip()`

7. `Series.corr()`

8. `Series.count()`

9. `Series.cov()`

10. `Series.cummax()`

11. `Series.cummin()`

12. `Series.cumprod()`

13. `Series.cumsum()`

14. `Series.describe()`

15. `Series.diff()`

16. `Series.factorize()`

17. `Series.kurt()`

18. `Series.mad()`

19. `Series.max()`

20. `Series.min()`

21. `Series.mean()`

22. `Series.median()`