pandas统计

2020-05-08  本文已影响0人  9fbe1619f5ab

import pandas as pd

import numpy as np

汇总与计算描述统计

Series

在describe中,count为非NaN的数量,mean为平均值,std为标准差

DataFrame

describe汇总统计方法无axis参数

统计方法默认axis=0纵向统计,默认skipna=True排除缺失值,可指定axis=1横向统计,skipna=False统计缺失值

>>> sr = pd.Series([1.6, np.nan, 45, -3])

>>> sr.mean()

14.533333333333333

>>> sr.mean(skipna=False)

nan

对于非数值型数据,describe产生另一种汇总统计

>> sr = pd.Serise(list('kaigva;rlkgjaworpiy'))

>>> sr.describe()

count 19             # 非NaN数量

unique 13          # 唯一值数量 

top a                  # 最高频元素 

freq 3                 # 最高频次数 

dtype: object

唯一值

seriesObj.unique()                        # dataframe无此方法

unique按值的发现顺序返回,结果是未排序的

值计数

pd.value_counts(obj, sort=False)

用于series

serise默认不计算缺失值

升序排列,设置参数 ascending = True

想要得出计数占比,可以加参数 normalize=True

用于dataframe

dataframe计数时,没有对应值的部分会填充NaN

成员判断

obj.isin()

上一篇 下一篇

猜你喜欢

热点阅读