web服务器 Pandas

Pandas（算术运算和数据对齐）

2018-11-11 本文已影响9人 GHope

可以对不同索引的对象进行算术运算

i算术运算

对于DataFrame，对齐操作会同时发生在行和列上

对齐操作

在算术方法中填充值

当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如0）。相加时，没有重叠的位置就会产生NA值。

填充特殊值

DataFrame和Series之间的运算

相减

如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集。

运算

函数应用和映射

绝对值

应用到每列

求每列最大值和最小值的差

传递axis=‘columns’到apply，这个函数会在每行执行

应用到行

得到每列的最值

得到frame中各个浮点值的格式化字符串，使用applymap即可

格式化字符串

Series有一个用于应用元素级函数的map方法

应用于元素级

排序和排名

要对行或列索引进行排序（按字典顺序），可使用sort_index方法，它将返回一个已排序的新对象。

按字典顺序对series对象进行排序

DataFrame，可以根据任意一个轴上的索引进行排序

任意轴索引

降序排序（ascending=False）

降序

按值对Series进行排序，可使用其sort_values方法

按值对Series进行排序

排序时，任何缺失值默认都会被放到Series的末尾

缺省值置后

排序一个DataFrame时，根据一个或多个列中的值进行排序。将一个或多个列的名字传递给 sort_values的by选项即可。

按值对DataFrame排序

rank为各组分配一个平均排名

分配平均排名

根据值在原数据中出现的顺序给出排名

根据顺序对大小相同的值进行排序

也可以按降序进行排名

降序

DataFrame可以在行或列上计算排名

计算排名

带有重复标签的轴索引

带有重复索引值的Series

重复索引

如果某个索引对应多个值，则返回一个Series；而对应单个值的，则返回一个标量值。

重复索引取值

汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计，用于从 Series中提取单个值（如sum或mean）或从DataFrame的行或列中提取一个Series。

数据准备

调用DataFrame的sum方法将会返回一个含有列的和的Series

默认对列求和

传入axis=‘columns’或axis=1将会按行进行求和运算

传参指定对行求和

NA值会自动被排除，除非整个切片（这里指的是行或列）都是NA。通过skipna选项可以禁用该功能：

NA自动排除

唯一值、值计数以及成员资格

unique，它可以得到Series中的唯一值数组

唯一值

value_counts用于计算一个Series中各值出现的频率

统计Series中各值出现的频率

isin用于判断矢量化集合的成员资格

判断成员资格

结果中的行标签是所有列的唯一值。后面的频率值是每个列中这些值的相应计数。

result = data.apply(pd.value_counts).fillna(0)

统计结果

上一篇下一篇

猜你喜欢

热点阅读