数据分析之Pandas

2018-12-10  本文已影响9人  Fizz翊

欢迎来我的个人博客:fizzyi

Pandas介绍

查看pandas版本

import pandas as pd
pd.__version__

pandas主要的两个数据结构是SeriesDataFrame
导入模块

import numpy as np
from pandas import Series,DataFrame

Pandas数据结果: Series

从一般意义上来讲,Series可以简单的被认为是一维的数组。Series和一维数组最主要的区别在与Series类型具有索引(index),可以和另一个编程中最常见的数据结构哈希联系起来。

创建Series

创建一个Series的基本格式是s = Series(data,index=index,name=name)。首先我们从数组创建Series:

a = np.random.randn(5)
print(a)
s = Series(a)
print(s)


[-1.24962807 -0.85316907  0.13032511 -0.19088881  0.40475505]

0   -1.249628
1   -0.853169
2    0.130325
3   -0.190889
4    0.404755

可以在创建Series时添加index,并可使用Series.inde查看具体的index。但是需要注意的一点是,当从数组创建Series时,若指定index,那么index长度和data的长度一致。

s = Series(np.random.randn(5),index=['a','b','c','d','e'])
print(s)

a    0.509906
b   -0.764549
c    0.919338
d   -0.084712
e    1.896407

创建Series的另一个可选项是name,可指定Series的名称,可以用Series.name访问。

Series还可以从字典创建。

d = {'a':0,'b':1,'c':2}
print(d)

s = Series(d)
print s

{'a': 0.0, 'c': 2, 'b': 1}
a    0
b    1
c    2

使用字典创建Series时指定index的情形(index长度不必和字典相同,如果多了的话,pandas将会自动为多余的index分配NaN)

字典创建的Series,数据将按index的顺序重新排列。

Series(4,index=['a','b','c','d'])
a    4
b    4
c    4
d    4
e    4

如果数据就是一个单一的变量,如数字4,那么Series将重复这个变量。

Series 数据的访问

访问Series数据可以和数组一样使用下标,也可以像字典一样使用索引,还可以使用一些条件过滤。

s = Series(np.random.randn(10),index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
s[0]  #取第一位
s[:2]  #取0,1
s[[2,0,4]]  #取2,0,4位
s[['e','i']]  #取index为e 和 i的
s[s > 0.5] #取值大于0.5的
'e' in s  #判断s中有没有下标e

Pandas数据结构:DataFrame

DataFrame是将多个Series按列合并而成的二维数据结构,每个列单独取出来是一个Series,和SQL数据库中取出的数据是类似的。DataFrame的优势在于可以方便的处理不同类型的列。

创建DataFrame

方法一

从字典创建DataFrameDataFrame是一个二维的数据结果,是多个Series的集合体。先创建一个值是Series的字典,然后转换为DataFrame

d = {'one':Series([1.,2.,3.,],index=['a','b','c']),'two':Series([1.,2.,3.,4.],index=['a','b','c','d'])}
df = DataFrame(d)
print df

   one  two
a    1    1
b    2    2
c    3    3
d  NaN    4

可以指定所需的行和列,若字典中不含有对应的元素,则为NaN

df = DataFrame(d,index=['r','d','a'],columns=['two','three'])
print df

   two three
r  NaN   NaN
d    4   NaN
a    1   NaN

方法二

DataFrame也可以从值是数组的字典中创建,但是各个数组的长度需要相同

d = {'one':[1,2,3,4],'tow':[4,3,2,1]}
df = DataFrame(d,index=['a','b','c','d'])
print df

   one  two
a    1    4
b    2    3
c    3    2
d    4    1

值如果不是数组,没有这一限制,并且缺失值补成NaN

如果需要创建一个空的DataFrame

df = DataFrame()

方法三

使用concat函数基于Series或者DataFrame创建一个DataFrame

a = Series(range(5))
b = Series(np.linspace(4,20,5))
df = pd.concat([a,b],axis=1)
print df 

   0   1
0  0   4
1  1   8
2  2  12
3  3  16
4  4  20

其中axis=1表示按列合并,axis=0表示按行合并。

df = DataFrame()
index = ['alpha','beta','gamma','delta','eta']
for i in range(5):
    a = DataFrame([np.linspace(i,5*i,5)],index=[index[i]])
    df = pd.concat([df,a],axis=0)
print df 

       0  1   2   3   4
alpha  0  0   0   0   0
beta   1  2   3   4   5
gamma  2  4   6   8  10
delta  3  6   9  12  15
eta    4  8  12  16  20

DataFrame数据的访问

因为DataFrame是以列作为操作的基础的,所以全部的操作都可以想象成先从DataFrame里取出来一列,再从这个series中取元素即可。

df.columns = ['a','b','c','d','e']

使用dataframe.columns为dataframe赋列名

从dataframe中单独取一列出来,其数据结构显示的是series,取两列及以上的结果仍然是dataframe。访问特定的元素可以如series一样使用下标或者是索引。

若需要选取行,可以使用dataframe.iloc按下标选取,或者使用dataframe.loc按索引选取。

print(df.iloc[1])
print(df.loc['beta'])

选取行还可以使用切片的方式或者是布尔类型的向量

print(df[1:3])
bool_vec = [True,False,True,True,False]
print(df[bool_vec])

行列组合起来选取数据

print(df[['b','d']].iloc[[1,3]])
print(df.iloc[[1,3]][['b','d']])
print(df[['b','d']].loc[['beta','delta']])
print(df.loc[['beta','delta']][['b','d']])

如果只是某个特殊位置的元素的话,dataframe.at 和dataframe.iat是最快的方式,它们分别用于使用索引和下标进行访问。

print(df.iat[2,3])
print(df.at['gamma','d'])

dataframe.ix可以混合使用索引和下标进行访问,唯一需要注意的地方是行列内部需要一致,不可以同时使用索引和下标访问行或者列。

print(df.ix['gamma',4])
print(df.ix[['delta','gamma'],[1,4]])
print(df.ix[[1,2],['b','e']])
#错误的写法
print(df.ix[['beta',2],['be','e']])
print(df.ix[[1,2],['b',4]])
上一篇 下一篇

猜你喜欢

热点阅读