2、pandas的value_counts()和describe
2017-12-06 本文已影响0人
让数据告诉你
pandas 的value_counts()函数可以对Series里面的每个值进行计数并且排序。
value_counts是计数,统计所有非零元素的个数,默认以降序的方式输出Series。
![](https://img.haomeiwen.com/i8612260/7bd99934829b9a91.png)
按区域进行分类统计(默认降序排列,如果要升序排列可以添加参数ascending = True):
![](https://img.haomeiwen.com/i8612260/47255080cae322d8.png)
![](https://img.haomeiwen.com/i8612260/eae3bdb0b956a32a.png)
统计每个区域的占比(指定normalize参数为True,也可以用sum函数进行计算):
![](https://img.haomeiwen.com/i8612260/6bd223f2b68b1261.png)
![](https://img.haomeiwen.com/i8612260/435755f74472f47c.png)
空值是默认剔除掉的,value_counts()返回的结果是一个Series数组,可以跟别的数组进行运算。
value_count()跟透视表里(pandas或者excel)的计数很相似,都是返回一组唯一值,并进行计数,这样能快速找出重复出现的值。
还有value_counts()函数是针对Series的,不是针对DataFrame的,所以只能是单列。
describe函数(统计计数函数)
describe函数总结数据集分布的中心趋势,分散和形状,不包括NaN值。
DataFrame.describe(percentiles=None,include=None,exclude=None),可以快速的求出一些算术运算指标:
![](https://img.haomeiwen.com/i8612260/9dfd58b9960e8c73.png)
include包含all、[np.number]和[np.object]三个值,describe属性可以对数值型变量(include=['number'])和离散型变量(include=['object'])进行描述性统计:
![](https://img.haomeiwen.com/i8612260/0fb80cfcb641efb5.png)
![](https://img.haomeiwen.com/i8612260/548b9cf4ec3ca4df.png)
![](https://img.haomeiwen.com/i8612260/0153cb455791a58f.png)