利用Python进行数据分析

排序和排名

2019-02-13  本文已影响0人  庵下桃花仙

sort_index 方法,返回一个新的、排序好的的对象

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [4]: obj.sort_index()
Out[4]:
a    1
b    2
c    3
d    0
dtype: int64
In [6]: frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
   ...:                      index=['three', 'one'],
   ...:                      columns=['d', 'a', 'b', 'c'])

In [7]: frame
Out[7]:
       d  a  b  c
three  0  1  2  3
one    4  5  6  7

In [8]: frame.sort_index()
Out[8]:
       d  a  b  c
one    4  5  6  7
three  0  1  2  3
In [10]: frame.sort_index(axis=1)
Out[10]:
       a  b  c  d
three  1  2  3  0
one    5  6  7  4

默认升序排序,也可以降序排序

In [11]: frame.sort_index(axis=1, ascending=False)
Out[11]:
       d  c  b  a
three  0  3  2  1
one    4  7  6  5

根据 Series 的值进行排序,使用 sort_values 方法

In [12]: obj = pd.Series([4, 7, -3, 2])

In [13]: obj.sort_values()
Out[13]:
2   -3
3    2
0    4
1    7
dtype: int64

In [14]: obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [15]: obj.sort_values()
Out[15]:
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

DataFrame 的排序,可以使用一列或多列作为排序键,可选参数为 by

In [16]: frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [17]: frame
Out[17]:
   b  a
0  4  0
1  7  1
2 -3  0
3  2  1

In [18]: frame.sort_values(by='b')
Out[18]:
   b  a
2 -3  0
3  2  1
0  4  0
1  7  1

In [19]: frame.sort_values(by=['a', 'b'])
Out[19]:
   b  a
2 -3  0
0  4  0
3  2  1
1  7  1

rank 方法实现排名

In [20]: obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [21]: obj.rank()
Out[21]:
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [22]: obj.rank(method='first')
Out[22]:
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

降序排名

In [23]: obj.rank(ascending=False, method='max')
Out[23]:
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64
In [24]: frame = pd.DataFrame({'b':[4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
    ...:                       'c':[-2, 5, 8, -2.5]})

In [25]: frame
Out[25]:
     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5

In [26]: frame.rank(axis='columns')
Out[26]:
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0

In [27]: frame.rank(axis=1)
Out[27]:
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0

排名中的平级关系打破的方法

方法 描述
average 默认:在每个组中分配平均排名
min 对整个组使用最小排名
max 对整个组使用最大排名
first 按照值在数据中出现的次序分配排名
dense 类似于 method='min',但组间排名总是增加1,而不是一个组中的相等元素的数量
上一篇下一篇

猜你喜欢

热点阅读