基于Python pandas库的value_sum和value

2019-08-15 本文已影响0人放翁lcf

在pandas库中实现Excel的数据透视表效果通常用的是df['a'].value_counts()这个函数，表示统计数据框(DataFrame) df的列a各个元素的出现次数；例如对于一个数据表如pd.DataFrame({'a':['A','A','B','C','C','C'],'b':[1,2,3,4,5,6],'c':[11,11,12,13,13,14]})，其透视表效果如下：

Excel数据透视表与Python实现对比

就是对表df中的a列各个值出现的次数进行统计。

Pandas中的数据透视表各功能

用过Excel透视表功能的话我们知道，出了统计出现次数之外，还可以选择计算某行的求和、最大最小值、平均值等(数据透视表对于数值类型的列默认选求和，文本类型默认选计数)，还是拿表df来说，excel的数据透视表可以计算a列的A、B、C三个元素对应的c列的求和（sum），但是pandas库并没有value_sum()这样的函数，pandas的sum函数是对整列求和的，例如df['b'].sum()是对b列求和，结果是21，和a列无关；所以我们可以自己按照根据a列分表再求和的思路去实现。自己造轮子的做法可以是：

def df_value_sum(df,by='a',s='b'):#by和s分别对应根据a列对b列的数求和
    keys=set(df[by])
    ss={}
    for k in keys:
        d=df.loc[df[by]==k]
        ss[k]=d[s].sum()
    return ss #返回一个字典

对于上面的表df，该函数df_value_sum(df,by='a',s='b')的输出是一个字典，{'B': 3, 'C': 15, 'A': 3}，字典可以进一步转为DataFrame。同样的方法可以写出df_value_max(df)、df_value_min(df)、 df_value_min(df) df_value_avg(df)等；如果需要对除a外的所有列进行分组求和操作，可以用df.groupby('a').sum()，会输出一个DataFrame。

去重的数据透视表计数

另外还有一个很重要的需求是统计某列不重复元素的计数，这个用数据透视表是不能直接算出来的，例如有一个用户订单表，一个用户可能下了多个订单，用户有渠道属性，需要统计一段时间内各渠道的付费用户数，直接在透视表的行选渠道，值选uid计数，得到的是没去重的结果，拿df表来说，假设c列是用户id，a列是渠道，想统计a列的A、B、C各渠道各有多少付费用户数，透视表的结果和期望的结果如下图：

常规透视表与期望的去重效果对比

可以看到直接对c列计数是不去重的。pandas库的.value_counts()库也是不去重的统计，查阅value_counts的官方文档可以发现，这个函数通过改变参数可以实现基础的分组计数、频率统计和分箱计数，normalize参数设置为True则将计数变成频率，例如df的a列中共有6行，而C出现了3次，于是C对应的值就是0.5；bin参数可以设置分箱；dropna可以设置是否考虑缺失值，默认是不考虑（可以结合normalize影响频率）；sort可以设置是否根据统计值进行排序(关于value_counts函数的更多内容可以再看下官方文档)。复用之前df_value_sum(df)的思路和代码，可以这么实现去重的计数需求：

def df_value_countdistinct(df,by='a',s='c'):
    keys=set(df[by])
    ss={}
    for k in keys:
        d=df.loc[df[by]==k] w
        ss[k]=len(set(d[s]))
    return ss

调用这个函数df_value_countdistinct(df,by='a',s='c')得到的结果就是A对应1，B对于1，C对应2，通过set对c列去重后再计数。查资料的过程中发现StackOverflow网站提供的一种解法很优雅，思路就是把根据a列分表的过程直接用df.groupby('a')实现，于是直接写df.groupby('a').c.nunique()或df.groupby('a').['c'].nunique()就是期望的结果，效率比用for循环更高，值得学习。

Python的去重计数实现

基于Python pandas库的value_sum和value

Pandas中的数据透视表各功能

去重的数据透视表计数

猜你喜欢

热点阅读