图解Pandas透视表和交叉表

2021-08-12 本文已影响0人皮皮大

图解Pandas透视表pivot_table

大家好，我是Peter呀~

终于开始Pandas进阶内容的写作了。相信很多人都应该知道透视表，在Excel会经常去制作它，来实现数据的分组汇总统计。在Pandas中，我们把它称之为pivot_table。

透视表的制作灵活性高，可以随意定制我们想要的的计算统计要求，一般在制作报表神器的时候常用。

下面通过具体的例子来对比Excel和Pandas中透视表的实现方法。

image

Excel透视表

下面是在Excel表格中使用消费数据制作的透视表（部分数据截图），我们统计的是不同性别不同日期下的消费金额和小费，同时还显示了总计的数据。

image

那如果是使用pandas该如何来实现呢？？？

参数

pandas中实现透视表使用的是：pandas.pivot_table

pd.pivot_table(data,  # 制作透视表的数据
               values=None,  # 值
               index=None,  # 行索引
               columns=None,  # 列属性
               aggfunc='mean',   # 使用的函数，默认是均值
               fill_value=None,  # 缺失值填充
               margins=False, # 是否显示总计
               dropna=True,   # 缺失值处理
               margins_name='All', # 总计显示为All
               observed=False,  
               sort=True  # 排序功能  版本1.3.0才有
              )

最重要的参数还是：values、index、columns、aggfunce，甚至包含margins、margins_name

附上官网学习地址：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

透视表pivot_table

参数index

index表示的是我们生成透视表指定的行索引

1、单层索引

image

2、多层行索引

image

参数values

在上面index参数的使用中，我们没有指定values参数，pandas会默认将全部的数值型数据进行透视表的计算，现在指定参数计算的数据：

带上values，只会显示我们指定的数据
不带上values，数值型的数据汇总结果全部显示

image

参数columns

columns是一个显示列属性信息的参数

image

如果我们将day放在index参数中，会是什么样子呢？

相当于是：将上面的宽表格式转成了下面的长表格式

image

再对比下两种不同的形式：

image

参数aggfunc

aggfunc是一个很灵活的参数，它是用来指定我们汇总想用哪种函数，默认是均值mean，我们也可以使用求和sum、最值max等。多个函数需要放在一个列表中。

我们将默认求平均mean的情况与求和的情况进行对比：

image

均值和sum求和之间的关系：

image

我们可以在aggfunc函数中指定多个函数，将这些函数放在同一个列表中：

求和：np.sum
求均值：mean
求个数：size

image

再看一个例子：

image

参数margins、margins_name

这两个参数的作用是对透视表中的分组数据进行汇总显示。需要注意的是：只有margins=True，参数margins_name的设置才会生效。

image

修改汇总显示的名字：

image

如果有列字段，也会显示汇总的数据：

image

交叉表crosstab()

交叉表可以理解成一种特殊的透视表，专门用于计算分组的频率。

参数

交叉表中每个参数的解释，很多还是和透视表相同的：

pandas.crosstab(index, # 行索引，必须是数组结构数据，或者Series，或者是二者的列表形式
                columns, # 列字段；数据要求同上
                values=None,  # 待透视的数据
                rownames=None,  # 行列名字
                colnames=None,  
                aggfunc=None,  # 透视的函数
                margins=False,  # 汇总及名称设置
                margins_name='All', 
                dropna=True, # 舍弃缺失值
                normalize=False  # 数据归一化；可以是布尔值、all、index、columns、或者{0,1}
               )

对最后一个参数的解释：如何选择归一化的标准

If passed ‘all’ or True, will normalize over all values：使用all，对全部的数值型数据归一化
If passed ‘index’ will normalize over each row：使用index，仅在行上归一化
If passed ‘columns’ will normalize over each column：使用columns，仅在列上归一化
If margins is True, will also normalize margin values：如果margins=True，总计值也会参与归一化

参数使用

image

当然，有时候透视表和交叉表是可以实现相同的功能：

image

groupby实现

其实透视表或者交叉表的本质还是分组汇总统计结果，我们也可以利用groupby来实现：

1、先分组统计

image

2、轴旋转unstack

上面的结果格式上不是很友好，使用的是多层次索引，我们使用轴旋转函数unstack将行转成列：

image

groupby和透视表比较

最后再用一个例子来比较下groupby和透视表：

image

备忘录

这个网上非常流行的一张图解Pandas透视表函数的图形，它利用一份简单的数据，清晰明了地讲解了pivot_table函数的每个参数的含义，保存备用！

网络图

图解Pandas透视表和交叉表

图解Pandas透视表pivot_table

Excel透视表

参数

透视表pivot_table

参数index

参数values

参数columns

参数aggfunc

参数margins、margins_name

交叉表crosstab()

参数

参数使用

groupby实现

groupby和透视表比较

备忘录

猜你喜欢

热点阅读