程序员

Pandas

2019-01-21  本文已影响58人  阿提艾斯

Pandas概念:

1、一个强大的分析结构化数据的工具集。
2、基础是NumPy,提供了高性能矩阵的运算
3、应用,数据挖掘,数据分析
4、提供数据清洗功能

Pandas的数据结构

import pandas as pd
1、Series
1.1 类似一维数组的对象。
通过list构建Series

ser_obj = pd.Series(range(10))

1.2 由数据和索引组成
  * 索引在左,数据在右
  * 索引是自动创建的
1.3 获取数据和索引

ser_obj.index, ser_obj.values

1.4 预览数据

ser_obj.head(n)

1.5 通过索引获取数据

ser_obj[idx]

1.6 索引与数据的对应关系仍然保持在数组运算的结果中。
1.7 通过dict构建Series
1.8 name属性

ser_obj.name, ser_obj.index.name

2、DataFrame
2.1 类似多维数组、表格数据(如,excel, R中的data.frame)
2.2 每列数据可以是不同的类型
2.3 索引包括列索引和行索引
2.4 通过ndarray构建DataFrame
2.5 通过dict构建DataFrame
2.6 通过列索引获取列数据(Series类型)

df_obj[col_idx] 或df_obj.col_idx

2.7 增加列数据,类似dict添加key-value

df_obj[new_col_idx] = data

2.8 删除列

del df_obj[col_idx]

2.9 DataFrame索引
2.9.1 列索引

df_obj['label']

2.9.2 不连续索引

df_obj[['label1',  'label2']]

2.10 排序
2.10.1 sort_index,索引排序
2.10.2 按值排序 sort_values(by= 'label')

Pandas统计计算和描述

1、常用的统计计算
1.1 sum, mean, max, min..
1.2 axis=0 按列统计, axis=1 按行统计
1.3 skipna排除缺失值,默认为True
1.4 idmax, idmin, cumsum
2、统计描述
2.1 describe产生多个统计数据

方法 说明
count 非NA值得数量
describe 针对Series或各DataFrame列计算汇总统计
min, max 计算最小值和最大值
argmin、argmax 计算能够获取到最小值和最大值的索引位置(整数)
idxmin、idxmax 计算能够获取到最小值和最大值的索引值
quantile 计算样本的分位数(0到1)
sum 值的总和
mean 值的平均数
median 值的算术中位数(50%分位数)
mad 根据平均值计算平均绝对离差
var 样本值的方差
std 样本值的标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin、cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化
上一篇下一篇

猜你喜欢

热点阅读