《pandas入门》之数据结构
2017-11-19 本文已影响0人
江河于田
前言
pandas有两种数据结构,其中主要得是Series和DateFrame,本文主要讲解和记录这两种种数据的结构和操作。
第一种结构:Series
Series是一种类似一维数组的数据结构,它由一组数据和一组相对应的索引组成,Series的创建形式是Series(list,index=),需要显式的指出index,若不显式指出index ,则自动创建0到N-1的索引。
obj_1 = pd.Series([1,2,3,4])
print obj_1
print type(obj_1)
print obj_1.values
print type(obj_1.values )
print obj_1.index
输出:
0 1
1 2
2 3
3 4
dtype: int64
<class 'pandas.core.series.Series'>
[1 2 3 4]
<type 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)
obj_2 = pd.Series([1,2,3,4],index=["a","b","c","d"])
print obj_2
print obj_2.values #[1 2 3 4]
print obj_2.index
#Index([u'a', u'b', u'c', u'd'], dtype='object')
输出:
a 1
b 2
c 3
d 4
dtype: int64
[1 2 3 4]
Index([u'a', u'b', u'c', u'd'], dtype='object')
Series还有一些其他的数据特性:
# Series 索引可以修改但是值不能修改
obj_22 = pd.Series([1,2,3,4],index=["a","b","c","d"])
obj_22.index = ['e','f','g','h']
print obj_22.index
输出:
Index([u'e', u'f', u'g', u'h'], dtype='object')
# Series对象还有name属性,相当于是增加列名
obj_22.name = "population"
obj_22.index.name = "state"
print obj_22
输出:
state
e 1
f 2
g 3
h 4
Name: population, dtype: int64
# 索引操作符合numpy数组的运算
print obj_2["a"]
print obj_2 * 2
输出:
1
a 2
b 4
c 6
d 8
dtype: int64
# 注意以下操作,直接在索引位置筛选值
print obj_2[obj_2>2]
输出:
c 3
d 4
dtype: int64
# 因为Series 可以看做是一个定长的有序字典,因为它是一个索引值到数据值的映射
print 'a' in obj_2
print 'e' in obj_2
输出:
True
False
# 所以可以直接用dict建立Series,若不指定索引,则使用字典的key,
# 若指定则使用指定值,指定中索引重复的输出值,索引没值的则输出NAN
sdate = {"A":1000,"B":2000,"C":3000,"D":4000}
obj_3 = pd.Series(sdate)
print obj_3
输出:
A 1000
B 2000
C 3000
D 4000
stats = {"a","b","C","D"}
obj_4 = pd.Series(sdate,index=stats)
print obj_4
输出:
a NaN
C 3000.0
b NaN
D 4000.0
dtype: float64
# pandas 中 isnull 和 notnull 函数用来检测缺失值
print obj_4.isnull
print obj_4.notnull
输出:
<bound method Series.isnull of
a NaN
C 3000.0
b NaN
D 4000.0
dtype: float64>
<bound method Series.notnull of
a NaN
C 3000.0
b NaN
D 4000.0
dtype: float64>
# 推荐用以下的判断方式
print pd.isnull(obj_4)
print pd.notnull(obj_4)
输出:
a True
C False
b True
D False
dtype: bool
a False
C True
b False
D True
dtype: bool
第二种结构 DataFrame
DataFrame是一个表格型的数据结构,它的数据存储在一个或多个的二维模块中,它含有一组有序的列数据,可以理解为列名,每列的数据类型可以不一样,所以,DataFrame有行索引和列索引两种检索方式,这两种操作是平衡的。
#创建
data = {"name":["zhang","li","wang"],"num":[1,2,3],"value":[1.5,2.0,3.0]}
fram = pd.DataFrame(data)
输出
name num value
0 zhang 1 1.5
1 li 2 2.0
2 wang 3 3.0
# 可以指定列序列 columns可以理解为列名
fram_1 = pd.DataFrame(data=data,columns=["name","value","num"],index=["a","b","c"])
#输出:
name value num
a zhang 1.5 1
b li 2.0 2
c wang 3.0 3
# 当传入的列在数据中找不到,则显示NAN
fram_2 = pd.DataFrame(data=data,columns=["name","value","num","test"],index=["a","b","c"])
#输出:
name value num test
a zhang 1.5 1 NaN
b li 2.0 2 NaN
c wang 3.0 3 NaN
# 可以把列数据(列名)理解为索引,获得一个Series
# 列索引皆可看做是DataFrame的属性输出数据
fram_2.columns # 输出列数据
#输出:
Index([u'name', u'value', u'num', u'test'], dtype='object')
fram_2["value"]
#输出
a 1.5
b 2.0
c 3.0
Name: value, dtype: float64
fram_2.name
#输出
a zhang
b li
c wang
Name: name, dtype: object
# 可以给某列赋值,当该列不存在的时候增加该列,
fram_2["test"] = 16.5
#输出:
name value num test
a zhang 1.5 1 16.5
b li 2.0 2 16.5
c wang 3.0 3 16.5
del fram_2["test"]
#输出:
name value num
a zhang 1.5 1
b li 2.0 2
c wang 3.0 3
# 行索引不能直接获取,需要使用索引字段
# loc只能通过索引值获取,而iloc是通过行号来获取,
# ix是将两者结合起来,即通过行号又通过索引值来获取
print fram_2.loc["b"]
print fram_2.iloc[2]
print fram_2.ix["b"]
#输出
name li
value 2
num 2
Name: b, dtype: object
name wang
value 3
num 3
Name: c, dtype: object
name li
value 2
num 2
Name: b, dtype: object
fram_2.index.name = "row"
fram_2.columns.name = "col"
#输出
col name value num
row
a zhang 1.5 1
b li 2.0 2
c wang 3.0 3
# 对于嵌套的字典数据类型,外层字典的键是列索引,内层键作为行索引
op = {"A":{"a":100,"b":200},"B":{"a":111,"c":222}}
fram_3 = pd.DataFrame(op)
输出:
A B
a 100.0 111.0
b 200.0 NaN
c NaN 222.0
一生顺利,一生被爱。