Numpy知识点总结

2019-02-23 本文已影响39人 EL33

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

一、创建ndarray

1.1 通过列表和内置函数创建

# 通过列表创建
np.array([[2,3,4],[5,6,7]])
# 通过内置函数创建
np.arange(0,10,2)    # 和Python里面的range一样，创建一个一维数组
np.zeros((2,3))    # 创建一个全0的 2×3 数组
np.ones((2,3),'int32')    # 创建一个 2×3 的全1的数组，并且改变数组元素类型为 int32
np.full((2,3),10,'int64')    # 创建一个 2×3 的指定数（这里为10）的数组，改变数组元素类型为 int64
np.empty((2,3))    # 创建一个 2×3 的空数组，只分配内存，但不填充，返回未被初始化的垃圾值
np.eye(5)    # 创建一个单位矩阵数组

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

1.2 通过random函数创建

1.2.1 均匀分布

均匀分布也叫 矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。
均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U(a，b)。

# 通过random函数创建
np.random.random((2,3))    # 服从均匀分布U(0,1)，构建2×3的数组

array([[0.5191731 , 0.97337981, 0.43615165],
       [0.26726161, 0.868919  , 0.1627226 ]])

np.random.rand(2,3) # 同上面的

array([[0.27252121, 0.09276636, 0.17518565],
       [0.3519029 , 0.7170142 , 0.33306299]])

1.2.2 随机等概率

np.random.randint(0,10,(3,3))    # 随机等概率的抽取 0-9范围内的整数，构建3×3的数组

array([[0, 4, 3],
       [1, 0, 2],
       [5, 5, 0]])

1.2.3服从正态分布的两个随机函数

标准正态。分布期望值μ=0，即曲线图象对称轴为Y轴，标准差σ=1条件下的正态分布，记为N(0，1)。

# 标准正态分布 N(0,1)
np.random.randn(2,3)

array([[ 1.43797336,  1.2564011 , -1.98322929],
       [ 0.21843254,  1.36461946, -0.92210014]])

# 正态分布 N(μ，σ^2)
np.random.normal(10,2,(2,3))

array([[ 7.7503975 ,  9.37959585, 11.31247388],
       [ 9.34024262, 11.74541123, 10.66043646]])

二、查看ndarray的信息

arr1 = np.random.randint(0,100,(10,10))
arr1

array([[86, 11, 50, 13, 86, 79, 72, 44, 71, 81],
       [ 5, 89, 74, 23, 39, 67, 72, 23,  3, 15],
       [50, 30, 68, 36, 49, 25, 64, 96, 33, 68],
       [92, 41, 13, 96,  7, 20, 15, 45,  7, 46],
       [70, 94, 15, 47, 58, 41, 80, 77, 37, 27],
       [76, 37, 33, 31, 93, 71, 93,  8, 92, 59],
       [72, 70, 65, 88, 78, 31, 52, 30, 78, 43],
       [79, 22, 15, 62, 53, 67, 84, 18, 96, 95],
       [14, 22, 99,  2, 60, 52, 64, 39,  9,  6],
       [20, 78, 30, 50, 86, 65,  4, 48, 10, 89]])

arr1.shape    # 查看数组形状

(10, 10)

arr1.ndim   # 查看数组维度

arr1.size    # 查看数组大小

arr1.dtype    # 查看数组元素的类型

dtype('int64')

arr1.astype(np.float32)    # 修改数组元素的类型，但是注意并不改变原有数组

array([[86., 11., 50., 13., 86., 79., 72., 44., 71., 81.],
       [ 5., 89., 74., 23., 39., 67., 72., 23.,  3., 15.],
       [50., 30., 68., 36., 49., 25., 64., 96., 33., 68.],
       [92., 41., 13., 96.,  7., 20., 15., 45.,  7., 46.],
       [70., 94., 15., 47., 58., 41., 80., 77., 37., 27.],
       [76., 37., 33., 31., 93., 71., 93.,  8., 92., 59.],
       [72., 70., 65., 88., 78., 31., 52., 30., 78., 43.],
       [79., 22., 15., 62., 53., 67., 84., 18., 96., 95.],
       [14., 22., 99.,  2., 60., 52., 64., 39.,  9.,  6.],
       [20., 78., 30., 50., 86., 65.,  4., 48., 10., 89.]], dtype=float32)

arr1.dtype    # 可以看到原有数组元素类型并没有改变

dtype('int64')

arr1.reshape(4,25)    # 重构数组的形状，也是不改变原有数组

array([[86, 11, 50, 13, 86, 79, 72, 44, 71, 81,  5, 89, 74, 23, 39, 67,
        72, 23,  3, 15, 50, 30, 68, 36, 49],
       [25, 64, 96, 33, 68, 92, 41, 13, 96,  7, 20, 15, 45,  7, 46, 70,
        94, 15, 47, 58, 41, 80, 77, 37, 27],
       [76, 37, 33, 31, 93, 71, 93,  8, 92, 59, 72, 70, 65, 88, 78, 31,
        52, 30, 78, 43, 79, 22, 15, 62, 53],
       [67, 84, 18, 96, 95, 14, 22, 99,  2, 60, 52, 64, 39,  9,  6, 20,
        78, 30, 50, 86, 65,  4, 48, 10, 89]])

三、索引操作

3.1 切片索引

arr2 = np.arange(1,10).reshape(3,3)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

arr2[2][:2]    # 先取第 3 行，然后对第三行里面的索引为0,1的列切片

array([7, 8])

arr2[1:3,:2]     # arr2 [行切片，列切片]，获取行下标从0到2，列下标0到1的内容

array([[4, 5],
       [7, 8]])

切片说明：
list [x:y:z] 从索引x开始取，到索引为y为止，但不包括y，取值步长为z

需要注意的是，数组切片是原始数组的视图。视图上的任何修改都会直接反映到源数组上。

arr2[0][0] = 666
print(arr2)

[[666   2   3]
 [  4   5   6]
 [  7   8   9]]

当你将一个标量值赋值给一个切片时，该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。

arr2[1:3,1:3] = 999
print(arr2)
arr2 = np.arange(1,10).reshape(3,3)    # 为避免影响后面的内容，将arr2还原

[[666   2   3]
 [  4 999 999]
 [  7 999 999]]

当你要得到独立的原始数据副本而不是视图的时候，你可以使用copy()

s = arr2[1:3,1:3].copy()
s[:,:] = 888
print(arr2)
print(s)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[888 888]
 [888 888]]

并不是单纯的深复制和浅复制

3.2 花式索引

arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

# 针对行的花式索引，取出顺序与索引顺序一致
arr2[[2,1,0]]    # 这里将本来0,1,2的索引顺序取值为2,1,0

array([[7, 8, 9],
       [4, 5, 6],
       [1, 2, 3]])

# 针对列的花式索引，同上
arr2[:,[2,1,0]]

array([[3, 2, 1],
       [6, 5, 4],
       [9, 8, 7]])

# 花式索引取单个值
arr2[[1,2],[0,1]]    # arr2[行，列] 取(1,0)、(2,1)对应位置的值

array([4, 8])

3.3布尔型索引

arr2 > 4    # 直接比较元素的值，生成一个True和False的ndarray对象

array([[False, False, False],
       [False,  True,  True],
       [ True,  True,  True]])

可以将这个ndarray对象做为索引来取其中为True的值

arr3 = arr2[arr2>4]    # 取arr2中大于4的元素，但是会失去数组的形状
print(arr3)
print(type(arr3))
print(arr3.shape)

[5 6 7 8 9]
<class 'numpy.ndarray'>
(5,)

arr2[~(arr2 > 4)]    # 对bool值索引取反

array([1, 2, 3, 4])

四、数组计算

Numpy的矢量化（vectorization）使得你不用编写循环就可以对数据进行批量运算。大小相等的数组之间的任何算术运算都会将运算应用到元素级。

4.1 基础计算

对应的+、-、*、/ 直接用，会应用到元素级对应的加减乘除，无需赘述

arr2 * arr2    #同shape直接运算

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

arr2 * arr1    # 不同shape的运算会这样（不是矩阵运算）

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-31-77c6c3c81a3a> in <module>()
----> 1 arr2 * arr1    # 不同shape的运算会这样（不是矩阵运算）


ValueError: operands could not be broadcast together with shapes (3,3) (10,10)

数组与标量之间的运算也是同样将标量“广播”到各个元素

arr2 * 10    # 将arr2每个元素对应的乘10

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

1/arr2    # 对arr2每个元素求倒数

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667],
       [0.14285714, 0.125     , 0.11111111]])

arr2**0.5    # 对arr2每个元素开方

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

4.2 数组比较

同shape数组之间的比较会生成bool、型数组

arr4 = np.random.randint(1,20,arr2.shape)
arr4

array([[18,  6, 17],
       [18,  8, 13],
       [15, 13,  4]])

arr4 > arr2

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True, False]])

不同大小的数组之间的运算叫做广播（broadcasting），后面介绍

4.3通用函数

4.3.1 一元函数：只需要一个参数

arr3

array([5, 6, 7, 8, 9])

np.abs(arr3*-1)    # 绝对值

array([5, 6, 7, 8, 9])

np.sqrt(arr3)    # 开方

array([2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

np.square(arr3)    # 平方

array([25, 36, 49, 64, 81])

np.exp(arr3)    # 指数函数，y=e^x函数

array([ 148.4131591 ,  403.42879349, 1096.63315843, 2980.95798704,
       8103.08392758])

# 对数函数
np.log(arr2)
np.log2(arr2)
np.log10(arr2)

array([[0.        , 0.30103   , 0.47712125],
       [0.60205999, 0.69897   , 0.77815125],
       [0.84509804, 0.90308999, 0.95424251]])

# 三角函数
np.sin(arr2)
np.cos(arr2)
np.tan(arr2)
np.tanh(arr2)    # 双弦正切

array([[0.76159416, 0.96402758, 0.99505475],
       [0.9993293 , 0.9999092 , 0.99998771],
       [0.99999834, 0.99999977, 0.99999997]])

print(arr2/3)
np.modf(arr2 / 3)    # 将数组元素的整数和小数部分拆分，返回两个数组

[[0.33333333 0.66666667 1.        ]
 [1.33333333 1.66666667 2.        ]
 [2.33333333 2.66666667 3.        ]]





(array([[0.33333333, 0.66666667, 0.        ],
        [0.33333333, 0.66666667, 0.        ],
        [0.33333333, 0.66666667, 0.        ]]), array([[0., 0., 1.],
        [1., 1., 2.],
        [2., 2., 3.]]))

np.isnan(arr2)    # 判断是否有缺失

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

np.isinf(arr2)    # 判断是否无穷

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

4.3.2 二元函数

二元函数的第二个参数可以是标量，也可以是数组（同shape）

np.add(arr2,arr2)    # 加
np.subtract(arr2,arr2)    # 减
np.multiply(arr2,arr2)    # 乘
np.divide(arr2,arr2)    # 除
np.mod(arr2,arr2)    # 取余数
np.power(arr2,3)    # 开方

array([[  1,   8,  27],
       [ 64, 125, 216],
       [343, 512, 729]])

4.4 线性代数

arr2.T    # 转置

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

np.dot(arr2,arr4)    # 矩阵内积

array([[ 99,  61,  55],
       [252, 142, 157],
       [405, 223, 259]])

np.diag(arr2)    # 取对角线的元素

array([1, 5, 9])

np.trace(arr2)    # 求迹（对角线元素之和）

np.linalg.det(arr2)    # 求方阵的行列式

6.66133814775094e-16

np.linalg.matrix_rank(arr2)    # 求矩阵的秩

np.linalg.eig(arr2)    # 求方阵的特征值和特征向量

(array([ 1.61168440e+01, -1.11684397e+00, -1.30367773e-15]),
 array([[-0.23197069, -0.78583024,  0.40824829],
        [-0.52532209, -0.08675134, -0.81649658],
        [-0.8186735 ,  0.61232756,  0.40824829]]))

np.linalg.inv(arr2)    # 求满秩方阵的逆

array([[-4.50359963e+15,  9.00719925e+15, -4.50359963e+15],
       [ 9.00719925e+15, -1.80143985e+16,  9.00719925e+15],
       [-4.50359963e+15,  9.00719925e+15, -4.50359963e+15]])

np.linalg.pinv(arr2)    # 求伪逆

array([[-6.38888889e-01, -1.66666667e-01,  3.05555556e-01],
       [-5.55555556e-02, -2.60208521e-16,  5.55555556e-02],
       [ 5.27777778e-01,  1.66666667e-01, -1.94444444e-01]])

np.linalg.svd(arr2)    # svd矩阵分解

(array([[-0.21483724,  0.88723069,  0.40824829],
        [-0.52058739,  0.24964395, -0.81649658],
        [-0.82633754, -0.38794278,  0.40824829]]),
 array([1.68481034e+01, 1.06836951e+00, 1.47280825e-16]),
 array([[-0.47967118, -0.57236779, -0.66506441],
        [-0.77669099, -0.07568647,  0.62531805],
        [ 0.40824829, -0.81649658,  0.40824829]]))

五、数据处理

5.1 条件判断

np.where(1>0,arr2,arr4)    
# 判断为真输出arr2,为假输出arr4,可嵌套。arr2和arr4有相同的shape

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

5.2查看唯一值

np.unique(arr2)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.3 排序

-arr2

array([[-1, -2, -3],
       [-4, -5, -6],
       [-7, -8, -9]])

arr5 = -np.sort(-arr2)    # 排逆序
print(arr5)

[[3 2 1]
 [6 5 4]
 [9 8 7]]

np.sort(arr5,axis=1)    # 排序，axis默认为0方向（列方向）

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

5.4判断元素存在性

np.in1d(arr2,[1,2,3])    
#判断数组的元素是否在后一个list-like(ndarray-like)里面

array([ True,  True,  True, False, False, False, False, False, False])

六、持久化

6.1 二进制格式

np.save('path/name.npy',arr2)    # 保存arr2到本地
np.load('path/name.npy')    # 载入
np.savez('path/name/npz',a=arr1,b=arr2)    
# 保存多个数组，读的时候也是一样的方式

6.2 文本格式

np.savetxt('path/name.txt',arr2,delimiter=',')
# 保存为文本格式，delimiter=','为用','将列隔开
np.loadtxt('path/name.txt',delimter=',')
# 读取文本文件