NumPy
为什么选择NumPy?
NumPy提供了对多维数组(矩阵)的高效支持,同时还有以下优点:
- ndarray,核心数据结构,支持矢量运算的多维数组,在内存中进行连续存储;
- 各种操作多维数组的函数;
- 用于集成其他编程语言的各种接口;
多维的创建
In [1]: import numpy as np
In [2]: a1 = np.array([1, 2, 3, 4])
In [3]: a1.shape
Out[3]: (4,)
In [4]: a1.size
Out[4]: 4
In [5]: a1.dtype
Out[5]: dtype('int32')
In [6]: a2 = np.array([[1.0, 2.5, 3], [0.5, 4, 9]])
In [7]: a2.shape
Out[7]: (2, 3)
In [8]: a2.size
Out[8]: 6
In [9]: a2.min()
Out[9]: 0.5
In [10]: a2.dtype
Out[10]: dtype('float64')
In [11]: a1
Out[11]: array([1, 2, 3, 4])
In [12]: a2
Out[12]:
array([[ 1. , 2.5, 3. ],
[ 0.5, 4. , 9. ]])
In [13]: type(a1)
Out[13]: numpy.ndarray
以上代码中,首先通过import关键字导入了NumPy软件包,接着分别创建了a1和a2两个数组,其中a1为一维数组,a2为二维数组。二维数组有行列之分,可以用ndarray.shape得到。
还可以通过ndarray.size属性得到数组的元素个数,ndarray.dtype属性则记录了数组内部存储的元素是什么类型,ndarray还有其他各种方法,比如min返回所有元素中的最小值,更多方法在ipython中通过输入ndarray对象后,输入.,再按下tab键查看。
除了用np.array创建数组外,NumPy还有多种方法可以创建多维数组:
- np.arange类似于Python内置的range,创建一维数组;
- np.ones创建元素值全部为1的数组;
- np.zeros创建元素值全为0的数组;
- np.empty创建空值多维数组,只分配内存,不填充任何值;
- np.random.random创建元素值为随机值的多维数组;
以上全部函数都能接收一个dtype参数,用于指定多维数组元素的类型。而后四个函数需要通过元组指定创建的数组形状。也可以设置多维数组,只要指定形状的元组长度为3和4即可。还可以通过ndarray.ndim属性得到数组的维度。
In [15]: a1 = np.arange(4)
In [16]: a1
Out[16]: array([0, 1, 2, 3])
In [17]: a1.ndim
Out[17]: 1
In [18]: a2 = np.ones((4, 4), dtype=np.int64)
In [19]: a2
Out[19]:
array([[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1],
[1, 1, 1, 1]], dtype=int64)
In [20]: a2.dtype
Out[20]: dtype('int64')
In [21]: a2.ndim
Out[21]: 2
In [22]: a2.shape
Out[22]: (4, 4)
In [23]: a3 = np.zeros((2, 2))
In [25]: a3
Out[25]:
array([[ 0., 0.],
[ 0., 0.]])
In [26]: a3.dtype
Out[26]: dtype('float64')
In [27]: a3.ndim
Out[27]: 2
In [28]: a4 = np.empty((3, 3), dtype=np.int64)
In [29]: a4
Out[29]:
array([[ 0, 0, 0],
[ 0, 0, 1240],
[ 29555336411086848, 30399297484750848, 8247048604598075392]], dtype=int64)
In [30]: a4.dtype
Out[30]: dtype('int64')
In [31]: a4.shape
Out[31]: (3, 3)
In [32]: a4.ndim
Out[32]: 2
In [33]: a5 = np.ones((4, 3, 4))
In [34]: a5
Out[34]:
array([[[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.]],
[[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.]],
[[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.]],
[[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.],
[ 1., 1., 1., 1.]]])
In [35]: a5.ndim
Out[35]: 3
In [36]: a5.shape
Out[36]: (4, 3, 4)
当没有指定dtype类型时,多维数组元素类型默认时float64。
ndarray对象还可以通过reshape方法变形为其他维度的数组:
In [35]: a5.ndim
Out[35]: 3
In [36]: a5.shape
Out[36]: (4, 3, 4)
In [37]: a = np.arange(12)
In [38]: a
Out[38]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
In [39]: a.reshape(4, 3)
Out[39]:
array([[ 0, 1, 2],
[ 3, 4, 5],
[ 6, 7, 8],
[ 9, 10, 11]])
reshape方法的参数为指定数组形状的元组。
多维数组索引
在Python中列表可以非常灵活的使用 :切片选择部分元素,在NumPy中的多维数组也可以使用类似的方法:
In [40]: a = np.arange(12)
In [41]: a
Out[41]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
In [42]: a[1:4]
Out[42]: array([1, 2, 3])
In [43]: a[1:10:2]
Out[43]: array([1, 3, 5, 7, 9])
多维数组的切片功能还要强大的多,可以通过切片进行赋值操作,一次性改变数组中的多个元素:
In [44]: a
Out[44]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
In [45]: a[1:5] = -1
In [46]: a
Out[46]: array([ 0, -1, -1, -1, -1, 5, 6, 7, 8, 9, 10, 11])
In [47]: a[1:10:2] = 1
In [48]: a
Out[48]: array([ 0, 1, -1, 1, -1, 1, 6, 1, 8, 1, 10, 11])
多维数组可以通过shape知道具体形状,也可以通过多维数组中的每个维度进行切片选择:
In [49]: a = np.arange(12).reshape(3, 4)
In [50]: a
Out[50]:
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
In [51]: a[0]
Out[51]: array([0, 1, 2, 3])
In [52]: a[1]
Out[52]: array([4, 5, 6, 7])
In [53]: a[:, 0]
Out[53]: array([0, 4, 8])
In [54]: a[:, 1]
Out[54]: array([1, 5, 9])
In [55]: a[:, 2]
Out[55]: array([ 2, 6, 10])
In [56]: a[0, 0]
Out[56]: 0
In [57]: a[0, 1]
Out[57]: 1
In [58]: a[1, 1]
Out[58]: 5
In [59]: a[1, 2]
Out[59]: 6
In [60]: a[0] = 1
In [61]: a
Out[61]:
array([[ 1, 1, 1, 1],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
In [62]: a[:, 1] = -1
In [63]: a
Out[63]:
array([[ 1, -1, 1, 1],
[ 4, -1, 6, 7],
[ 8, -1, 10, 11]])
二维数组可以通过a[x, y]的方式来索引,三维数组可以通过a[x, y, z]的方式来索引。
当选择的维度数量小于数组的维度时,其实是对多维数组进行降维选择,对于二维数组:
In [63]: a
Out[63]:
array([[ 1, -1, 1, 1],
[ 4, -1, 6, 7],
[ 8, -1, 10, 11]])
选择其中一个具体元素,可以使用a[x, y]的形式,如果只通过a[1]进行选择,选到的结果是array([ 4, -1, 6, 7]),结果变成了一维数组,也就是降维选择。
In [65]: a = np.arange(27).reshape(3, 3, 3)
In [66]: a.ndim
Out[66]: 3
In [68]: a
Out[68]:
array([[[ 0, 1, 2],
[ 3, 4, 5],
[ 6, 7, 8]],
[[ 9, 10, 11],
[12, 13, 14],
[15, 16, 17]],
[[18, 19, 20],
[21, 22, 23],
[24, 25, 26]]])
In [69]: a1 = a[1]
In [70]: a1
Out[70]:
array([[ 9, 10, 11],
[12, 13, 14],
[15, 16, 17]])
In [71]: a1.shape
Out[71]: (3, 3)
In [72]: a2 = a[1, 1]
In [73]: a2
Out[73]: array([12, 13, 14])
In [74]: a2.shape
Out[74]: (3,)
In [75]: a2.ndim
Out[75]: 1
In [76]: a[2, 2, 2]
Out[76]: 26
In [77]: a[:, 1] = 1
In [78]: a
Out[78]:
array([[[ 0, 1, 2],
[ 1, 1, 1],
[ 6, 7, 8]],
[[ 9, 10, 11],
[ 1, 1, 1],
[15, 16, 17]],
[[18, 19, 20],
[ 1, 1, 1],
[24, 25, 26]]])
对于多维数组,如果想根据第二维度以后的维度来选择,可以使用a[:, 1]的形式。比如在上面演示的三维数组中,我们通过a[:, 1]选择了第二位度上的元素。
多维数组的基础运算
在Numpy中基础运算向普通语法一样简洁:
In [79]: a = np.arange(12).reshape(3, 4)
In [80]: a
Out[80]:
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
In [81]: a += 1
In [82]: a
Out[82]:
array([[ 1, 2, 3, 4],
[ 5, 6, 7, 8],
[ 9, 10, 11, 12]])
In [83]: a *= 2
In [84]: a
Out[84]:
array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24]])
在执行a += 1后,a多维数组中所有元素都被加1了。
多维数组之间的运算:
In [85]: a = np.arange(4).reshape(2, 2)
In [86]: b = np.arange(4, 8).reshape(2, 2)
In [87]: a
Out[87]:
array([[0, 1],
[2, 3]])
In [88]: b
Out[88]:
array([[4, 5],
[6, 7]])
In [89]: b - a
Out[89]:
array([[4, 4],
[4, 4]])
In [90]: a + b
Out[90]:
array([[ 4, 6],
[ 8, 10]])
In [91]: a * b
Out[91]:
array([[ 0, 5],
[12, 21]])
多维数组间的运算规则是相同位置(坐标)上的值进行运算得到最终的结果。多维数组的组织方式和矩阵相同,但乘法的运算规则却和矩阵的运算规则不同,想对ndarray对象使用矩阵的乘法运算,可以使用ndarray.dot方法:
In [92]: a.dot(b)
Out[92]:
array([[ 6, 7],
[26, 31]])
多维数组还支持逻辑比较运算:
In [93]: a = np.arange(12).reshape(4, 3)
In [94]: b = a > 5
In [95]: b
Out[95]:
array([[False, False, False],
[False, False, False],
[ True, True, True],
[ True, True, True]], dtype=bool)
In [96]: a[b]
Out[96]: array([ 6, 7, 8, 9, 10, 11])
首先通过a > 5生成一个形状和a一致的多维数组,所有为True的元素的位置在a中的值都大于5。然后就可以使用a[b]这种形式列出a中所有大于5的元素。
Numpy的多维数组还有一些方法,用于统计数组中的一些统计量,假如a为一个多维数组,则:
- a.sum计算多维数组的所有元素的和;
- a.max最大值计算;
- a.min最小值计算;
- a.mean平均值计算;
- a.std标准差计算;
- a.var方差计算;
以上所有方法,都可以接受一个axis参数,用于指定具体统计哪根轴上的数据。比如二维数组,可以理解为有x, y两根轴,分别代表行和列,指定axis=0时代表分别统计每列上的数据,axis=1时,代表分别统计每一行上的数据。没有指定axis参数时,代表统计所有元素。
In [97]: a
Out[97]:
array([[ 0, 1, 2],
[ 3, 4, 5],
[ 6, 7, 8],
[ 9, 10, 11]])
In [98]: a.sum()
Out[98]: 66
In [99]: a.sum(axis=0)
Out[99]: array([18, 22, 26])
In [100]: a.sum(axis=1)
Out[100]: array([ 3, 12, 21, 30])
除了ndarray多维数组对象自己的方法外,NumPy还自带一些通用的函数,可以进行各种计算:
- np.sqrt开放运算;
- np.dot矩阵乘法;
- np.sort排序;
- np.linalg模块中包含了一些基本的线性代数计算函数;
NumPy总结
NumPy主要掌握以下几点:
- ndarray多维数组的创建;
- 多维数组的索引方式;
- 多维数组的运算规则;