Pandas
2019-01-21 本文已影响58人
阿提艾斯
Pandas概念:
1、一个强大的分析结构化数据的工具集。
2、基础是NumPy,提供了高性能矩阵的运算
3、应用,数据挖掘,数据分析
4、提供数据清洗功能
Pandas的数据结构
import pandas as pd
1、Series
1.1 类似一维数组的对象。
通过list构建Series
ser_obj = pd.Series(range(10))
1.2 由数据和索引组成
* 索引在左,数据在右
* 索引是自动创建的
1.3 获取数据和索引
ser_obj.index, ser_obj.values
1.4 预览数据
ser_obj.head(n)
1.5 通过索引获取数据
ser_obj[idx]
1.6 索引与数据的对应关系仍然保持在数组运算的结果中。
1.7 通过dict构建Series
1.8 name属性
ser_obj.name, ser_obj.index.name
2、DataFrame
2.1 类似多维数组、表格数据(如,excel, R中的data.frame)
2.2 每列数据可以是不同的类型
2.3 索引包括列索引和行索引
2.4 通过ndarray构建DataFrame
2.5 通过dict构建DataFrame
2.6 通过列索引获取列数据(Series类型)
df_obj[col_idx] 或df_obj.col_idx
2.7 增加列数据,类似dict添加key-value
df_obj[new_col_idx] = data
2.8 删除列
del df_obj[col_idx]
2.9 DataFrame索引
2.9.1 列索引
df_obj['label']
2.9.2 不连续索引
df_obj[['label1', 'label2']]
2.10 排序
2.10.1 sort_index,索引排序
2.10.2 按值排序 sort_values(by= 'label')
Pandas统计计算和描述
1、常用的统计计算
1.1 sum, mean, max, min..
1.2 axis=0 按列统计, axis=1 按行统计
1.3 skipna排除缺失值,默认为True
1.4 idmax, idmin, cumsum
2、统计描述
2.1 describe产生多个统计数据
方法 | 说明 |
---|---|
count | 非NA值得数量 |
describe | 针对Series或各DataFrame列计算汇总统计 |
min, max | 计算最小值和最大值 |
argmin、argmax | 计算能够获取到最小值和最大值的索引位置(整数) |
idxmin、idxmax | 计算能够获取到最小值和最大值的索引值 |
quantile | 计算样本的分位数(0到1) |
sum | 值的总和 |
mean | 值的平均数 |
median | 值的算术中位数(50%分位数) |
mad | 根据平均值计算平均绝对离差 |
var | 样本值的方差 |
std | 样本值的标准差 |
skew | 样本值的偏度(三阶矩) |
kurt | 样本值的峰度(四阶矩) |
cumsum | 样本值的累计和 |
cummin、cummax | 样本值的累计最大值和累计最小值 |
cumprod | 样本值的累计积 |
diff | 计算一阶差分(对时间序列很有用) |
pct_change | 计算百分数变化 |