Python数据分析学习笔记

NumPy

2018-09-11  本文已影响0人  Alex_杨策

为什么选择NumPy?

NumPy提供了对多维数组(矩阵)的高效支持,同时还有以下优点:

多维的创建

In [1]: import numpy as np

In [2]: a1 = np.array([1, 2, 3, 4])

In [3]: a1.shape
Out[3]: (4,)

In [4]: a1.size
Out[4]: 4

In [5]: a1.dtype
Out[5]: dtype('int32')

In [6]: a2 = np.array([[1.0, 2.5, 3], [0.5, 4, 9]])

In [7]: a2.shape
Out[7]: (2, 3)

In [8]: a2.size
Out[8]: 6

In [9]: a2.min()
Out[9]: 0.5

In [10]: a2.dtype
Out[10]: dtype('float64')

In [11]: a1
Out[11]: array([1, 2, 3, 4])

In [12]: a2
Out[12]:
array([[ 1. ,  2.5,  3. ],
       [ 0.5,  4. ,  9. ]])

In [13]: type(a1)
Out[13]: numpy.ndarray

以上代码中,首先通过import关键字导入了NumPy软件包,接着分别创建了a1和a2两个数组,其中a1为一维数组,a2为二维数组。二维数组有行列之分,可以用ndarray.shape得到。
还可以通过ndarray.size属性得到数组的元素个数,ndarray.dtype属性则记录了数组内部存储的元素是什么类型,ndarray还有其他各种方法,比如min返回所有元素中的最小值,更多方法在ipython中通过输入ndarray对象后,输入.,再按下tab键查看。

除了用np.array创建数组外,NumPy还有多种方法可以创建多维数组:

以上全部函数都能接收一个dtype参数,用于指定多维数组元素的类型。而后四个函数需要通过元组指定创建的数组形状。也可以设置多维数组,只要指定形状的元组长度为3和4即可。还可以通过ndarray.ndim属性得到数组的维度。

In [15]: a1 = np.arange(4)

In [16]: a1
Out[16]: array([0, 1, 2, 3])

In [17]: a1.ndim
Out[17]: 1

In [18]: a2 = np.ones((4, 4), dtype=np.int64)

In [19]: a2
Out[19]:
array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int64)

In [20]: a2.dtype
Out[20]: dtype('int64')

In [21]: a2.ndim
Out[21]: 2

In [22]: a2.shape
Out[22]: (4, 4)

In [23]: a3 = np.zeros((2, 2))
In [25]: a3
Out[25]:
array([[ 0.,  0.],
       [ 0.,  0.]])

In [26]: a3.dtype
Out[26]: dtype('float64')

In [27]: a3.ndim
Out[27]: 2

In [28]: a4 = np.empty((3, 3), dtype=np.int64)

In [29]: a4
Out[29]:
array([[                  0,                   0,                   0],
       [                  0,                   0,                1240],
       [  29555336411086848,   30399297484750848, 8247048604598075392]], dtype=int64)

In [30]: a4.dtype
Out[30]: dtype('int64')

In [31]: a4.shape
Out[31]: (3, 3)

In [32]: a4.ndim
Out[32]: 2

In [33]: a5 = np.ones((4, 3, 4))

In [34]: a5
Out[34]:
array([[[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]]])

In [35]: a5.ndim
Out[35]: 3

In [36]: a5.shape
Out[36]: (4, 3, 4)

当没有指定dtype类型时,多维数组元素类型默认时float64。

ndarray对象还可以通过reshape方法变形为其他维度的数组:

In [35]: a5.ndim
Out[35]: 3

In [36]: a5.shape
Out[36]: (4, 3, 4)

In [37]: a = np.arange(12)

In [38]: a
Out[38]: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [39]: a.reshape(4, 3)
Out[39]:
array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

reshape方法的参数为指定数组形状的元组。

多维数组索引

在Python中列表可以非常灵活的使用 :切片选择部分元素,在NumPy中的多维数组也可以使用类似的方法:

In [40]: a = np.arange(12)

In [41]: a
Out[41]: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [42]: a[1:4]
Out[42]: array([1, 2, 3])

In [43]: a[1:10:2]
Out[43]: array([1, 3, 5, 7, 9])

多维数组的切片功能还要强大的多,可以通过切片进行赋值操作,一次性改变数组中的多个元素:

In [44]: a
Out[44]: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [45]: a[1:5] = -1

In [46]: a
Out[46]: array([ 0, -1, -1, -1, -1,  5,  6,  7,  8,  9, 10, 11])

In [47]: a[1:10:2] = 1

In [48]: a
Out[48]: array([ 0,  1, -1,  1, -1,  1,  6,  1,  8,  1, 10, 11])

多维数组可以通过shape知道具体形状,也可以通过多维数组中的每个维度进行切片选择:

In [49]: a = np.arange(12).reshape(3, 4)

In [50]: a
Out[50]:
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [51]: a[0]
Out[51]: array([0, 1, 2, 3])

In [52]: a[1]
Out[52]: array([4, 5, 6, 7])

In [53]: a[:, 0]
Out[53]: array([0, 4, 8])

In [54]: a[:, 1]
Out[54]: array([1, 5, 9])

In [55]: a[:, 2]
Out[55]: array([ 2,  6, 10])

In [56]: a[0, 0]
Out[56]: 0

In [57]: a[0, 1]
Out[57]: 1

In [58]: a[1, 1]
Out[58]: 5

In [59]: a[1, 2]
Out[59]: 6

In [60]: a[0] = 1

In [61]: a
Out[61]:
array([[ 1,  1,  1,  1],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [62]: a[:, 1] = -1

In [63]: a
Out[63]:
array([[ 1, -1,  1,  1],
       [ 4, -1,  6,  7],
       [ 8, -1, 10, 11]])

二维数组可以通过a[x, y]的方式来索引,三维数组可以通过a[x, y, z]的方式来索引。

当选择的维度数量小于数组的维度时,其实是对多维数组进行降维选择,对于二维数组:

In [63]: a
Out[63]:
array([[ 1, -1,  1,  1],
       [ 4, -1,  6,  7],
       [ 8, -1, 10, 11]])

选择其中一个具体元素,可以使用a[x, y]的形式,如果只通过a[1]进行选择,选到的结果是array([ 4, -1, 6, 7]),结果变成了一维数组,也就是降维选择。

In [65]: a = np.arange(27).reshape(3, 3, 3)

In [66]: a.ndim
Out[66]: 3
In [68]: a
Out[68]:
array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [69]: a1 = a[1]

In [70]: a1
Out[70]:
array([[ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17]])

In [71]: a1.shape
Out[71]: (3, 3)

In [72]: a2 = a[1, 1]

In [73]: a2
Out[73]: array([12, 13, 14])

In [74]: a2.shape
Out[74]: (3,)

In [75]: a2.ndim
Out[75]: 1

In [76]: a[2, 2, 2]
Out[76]: 26

In [77]: a[:, 1] = 1

In [78]: a
Out[78]:
array([[[ 0,  1,  2],
        [ 1,  1,  1],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [ 1,  1,  1],
        [15, 16, 17]],

       [[18, 19, 20],
        [ 1,  1,  1],
        [24, 25, 26]]])

对于多维数组,如果想根据第二维度以后的维度来选择,可以使用a[:, 1]的形式。比如在上面演示的三维数组中,我们通过a[:, 1]选择了第二位度上的元素。

多维数组的基础运算

在Numpy中基础运算向普通语法一样简洁:

In [79]: a = np.arange(12).reshape(3, 4)

In [80]: a
Out[80]:
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [81]: a += 1

In [82]: a
Out[82]:
array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [83]: a *= 2

In [84]: a
Out[84]:
array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24]])

在执行a += 1后,a多维数组中所有元素都被加1了。

多维数组之间的运算:

In [85]: a = np.arange(4).reshape(2, 2)

In [86]: b = np.arange(4, 8).reshape(2, 2)

In [87]: a
Out[87]:
array([[0, 1],
       [2, 3]])

In [88]: b
Out[88]:
array([[4, 5],
       [6, 7]])

In [89]: b - a
Out[89]:
array([[4, 4],
       [4, 4]])

In [90]: a + b
Out[90]:
array([[ 4,  6],
       [ 8, 10]])

In [91]: a * b
Out[91]:
array([[ 0,  5],
       [12, 21]])

多维数组间的运算规则是相同位置(坐标)上的值进行运算得到最终的结果。多维数组的组织方式和矩阵相同,但乘法的运算规则却和矩阵的运算规则不同,想对ndarray对象使用矩阵的乘法运算,可以使用ndarray.dot方法:

In [92]: a.dot(b)
Out[92]:
array([[ 6,  7],
       [26, 31]])

多维数组还支持逻辑比较运算:

In [93]: a = np.arange(12).reshape(4, 3)

In [94]: b = a > 5

In [95]: b
Out[95]:
array([[False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]], dtype=bool)

In [96]: a[b]
Out[96]: array([ 6,  7,  8,  9, 10, 11])

首先通过a > 5生成一个形状和a一致的多维数组,所有为True的元素的位置在a中的值都大于5。然后就可以使用a[b]这种形式列出a中所有大于5的元素。

Numpy的多维数组还有一些方法,用于统计数组中的一些统计量,假如a为一个多维数组,则:

以上所有方法,都可以接受一个axis参数,用于指定具体统计哪根轴上的数据。比如二维数组,可以理解为有x, y两根轴,分别代表行和列,指定axis=0时代表分别统计每列上的数据,axis=1时,代表分别统计每一行上的数据。没有指定axis参数时,代表统计所有元素。

In [97]: a
Out[97]:
array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [98]: a.sum()
Out[98]: 66

In [99]: a.sum(axis=0)
Out[99]: array([18, 22, 26])

In [100]: a.sum(axis=1)
Out[100]: array([ 3, 12, 21, 30])

除了ndarray多维数组对象自己的方法外,NumPy还自带一些通用的函数,可以进行各种计算:

NumPy总结

NumPy主要掌握以下几点:

上一篇下一篇

猜你喜欢

热点阅读