Day10 Python系列之Pandas、Numpy2019-

2019-06-04  本文已影响0人  迷途小球迷

Python数据分析工具离不开四个包:numpy、pandas、scipy、matplotlib.

Numpy的ndarray:多维数据对象

ndarray的组成是nd+array(数组),意思是n维数组,也就是多维数组。提供的方法就是对这种数组做数学运算。

1. 像普通整数类型一样,操作整个数组的数字

创建二维数组
整个数组乘以10
image.png

2. 每个数组都有shape和dtype方法

image.png

创建ndarray:一种多维数组对象

创建数组最简单的方法就是使用array函数,它接受一切序列型对象(包括其他数组),然后产生一个新的

image.png

ndarray的数据类型

image.png
astype是对类型进行转化的方法

基本的索引和切片

image.png
是指通过数字或者数组的位置,截取数组的某一部分。如果要一个副本,可以用.copy().
image.png

布尔类型索引

image.png

数组的转置和轴对换

image.png

排序

image.png

唯一化以及其他的集合逻辑

image.png

Pandas

如果是从事大数据工作,Pandas库会给你很多惊喜。尤其是从Excel和VBA转向Python的用户。以往使用excel处理百万级别数据感到非常吃力,Pandas一定会让你感到满意。
Pandas文档对它的介绍是:快速、灵活和易于理解的数据结构,以此让处理关系型数据和带有标签的数据时更简单直观。

使用正确的姿势,Pandas可以很快

pandas入门

pandas是基于numpy构建的,理论上也是由数组组成的数据结构。只不过是在数组的基础上,增加索引和标签,让数据的处理更加简单和易懂。

数据结构

Series是一种增加索引的一维ndarray数组。每一个series由values和index组成。也可以理解为是python里面的一个有序字典(dict)。所以字典类型的数据可以直接作为参数赋值给series。

d = {'a':12, 'b':13, 'c':22}
s = Series(d)

参考Pandas介绍,来自公众号(数据分析不是个事儿)文章

DataFrame是一个表格型结构,可以理解为二维的Series。既有行索引,也有列索引。类似于excel中的表格,所以在处理excel导入的数据时,使用的容器就是DataFrame。每一行或者每一列单独截取出来,都是一个Series。

赋值
将列表或数组赋值给某个列时,其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series,就会精确匹配DataFrame的索引,所有的空位都将被填上缺失值。
还可以给index和value设置name属性,显示出来。

基本功能

data = DataFrame([1,2,3], index=['f','e','w'])
data.reindex(['a','b','c'])
#使用column关键字可以重新索引列
col = ['pit','hal','ret']
data.reindex(columns = col)

loc是指location的意思,iloc中的i是指integer。iloc和loc方式索引也更为精细。这两者的区别如下:
loc works on labels in the index.(说白了就是标签索引)
iloc works on the positions in the index (so it only takes integers). (位置索引,和列表索引类似,里面只能是数字)

上一篇 下一篇

猜你喜欢

热点阅读