呆鸟的Python数据分析numpy 必知必会

numpy必知必会-第十天

2019-05-04  本文已影响54人  人工智能人话翻译官

46 查找array中的满足条件的元素位置

例如:
构建array

data=np.random.randint(0,10,size=(3,3))
data

data array如下:

array([[2, 2, 2],
       [1, 0, 8],
       [4, 0, 9]])

查找里面>5的元素的位置。
解决办法:

data=np.random.randint(0,10,size=(3,3))
np.argwhere(data>5)

输出

array([[1, 2],
       [2, 2]])

要点解读:输出的array ,[1, 2]代表的是第二行,第三列8的位置,[2, 2]代表的是第三行,第三列9的位置。

47 通过np.where对array内的元素进行clip操作

例如:
构建data, 从1~50采样20个元素,如下:

np.random.seed(100)
data = np.random.uniform(1,50, 20)
data

data array如下:

array([27.63, 14.64, 21.8 , 42.39,  1.23,  6.96, 33.87, 41.47,  7.7 ,
       29.18, 44.67, 11.25, 10.08,  6.31, 11.77, 48.95, 40.77,  9.43,
       41.  , 14.43])

进行截取操作,把20个元素的输出限定在10~30之间。

np.random.seed(100)
data = np.random.uniform(1,50, 20)
print(np.where(data < 10, 10, np.where(data > 30, 30, data)))

输出:

[27.63 14.64 21.8  30.   10.   10.   30.   30.   10.   29.18 30.   11.25
 10.08 10.   11.77 30.   30.   10.   30.   14.43]

要点解读:
np.where(condition, x, y),如果array元素满足condition则返回x,否则返回y。np.where(data > 30, 30, data) 如果data的元素>30则返回30,否则返回data元素,具体示例就是如果data内的元素为45,满足>30的条件,则返回30。如果data内的元素为20,不满足>30则返回20。
也可以通过np.clip(data, a_min=10, a_max=30)来实现同样的效果。

48 返回array中的top N

例如:构建元素

np.random.seed(100)
data = np.random.uniform(1,50, 20)
data

array 内容如下:

array([27.63, 14.64, 21.8 , 42.39,  1.23,  6.96, 33.87, 41.47,  7.7 ,
       29.18, 44.67, 11.25, 10.08,  6.31, 11.77, 48.95, 40.77,  9.43,
       41.  , 14.43])

返回该array中的top 5

解决办法:

np.random.seed(100)
data = np.random.uniform(1,50, 20)
data[data.argsort()][-5:]

输出

array([41.  , 41.47, 42.39, 44.67, 48.95])

要点解读:
data.argsort()将返回data array排序后的index,内容如下:
array([ 4, 13, 5, 8, 17, 12, 11, 14, 19, 1, 2, 0, 9, 6, 16, 18, 7,
3, 10, 15])
也可以使用np.sort(data)[-5:]来实现同样的效果。

49 如何把一个符合array摊平

例如:

arr1 = np.arange(3)
arr2 = np.arange(3,7)
arr3 = np.arange(7,10)

array_of_arrays = np.array([arr1, arr2, arr3])
array_of_arrays

array_of_arrays内容如下:

array([array([0, 1, 2]), array([3, 4, 5, 6]), array([7, 8, 9])],
      dtype=object)

接下来如何把array_of_arrays摊平。
解决办法:

arr1 = np.arange(3)
arr2 = np.arange(3,7)
arr3 = np.arange(7,10)

array_of_arrays = np.array([arr1, arr2, arr3])

arr_2d = np.concatenate(array_of_arrays, axis=0)
print(arr_2d)

输出

[0 1 2 3 4 5 6 7 8 9]

也可以使用arr_2d = np.array([a for arr in array_of_arrays for a in arr])实现同样的结果。

50 如何把一个array进行one hot编码

例如:
构建array如下:

np.random.seed(101) 
arr = np.random.randint(1,4, size=6)
arr

arr内容如下:

array([2, 3, 2, 2, 2, 1])

解决办法:

np.random.seed(101) 
arr = np.random.randint(1,4, size=6)
(arr.reshape(-1,1) == np.unique(arr)).view(np.int8)

输出

array([[0, 1, 0],
       [0, 0, 1],
       [0, 1, 0],
       [0, 1, 0],
       [0, 1, 0],
       [1, 0, 0]], dtype=int8)

要点解读:

arr.reshape(-1,1) 

输出:

array([[2],
       [3],
       [2],
       [2],
       [2],
       [1]])

先把array改变形状。再把arr进行unique处理。

np.unique(arr)

输出:

array([1, 2, 3])

接下来就可以通过arr.reshape(-1,1) == np.unique(arr)来构建一个布尔array了。

array([[False,  True, False],
       [False, False,  True],
       [False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [ True, False, False]])

使用布尔array的最大好处就是只要把true表示成1,其他false表示为0,这不就是one-hot编码了吗~这个可以方便的使用.view来实现。
最后全部合起来:

(arr.reshape(-1,1) == np.unique(arr)).view(np.int8)

输出

array([[0, 1, 0],
       [0, 0, 1],
       [0, 1, 0],
       [0, 1, 0],
       [0, 1, 0],
       [1, 0, 0]], dtype=int8)
上一篇下一篇

猜你喜欢

热点阅读