解密大数据每天写1000字每天写500字

Pandas入门 | 一步一步跟我学Python(五)

2017-08-31  本文已影响122人  肚财神
  • 1.本系列基于新生大学课程《Python编程&数据科学入门》和公开的参考资料;
  • 2.文章例子基于python3.6,使用Windows系统(除了安装,其余基本没有影响);
  • 3.我是纯小白,所以,错误在所难免,体系会逐渐成熟,我会经常进行更新;如果您发现了错误,也烦请帮我指出来,在此先谢过了。

到了这一次课,python课程就进行了一半了。不知你跟上了没有?这一课讲的是python的一个重要组成部分——padas,这一次课解决我一些很长时间的疑惑,能做出初步的产品了,一起来看看吧。

padas的作者是Wes Mckinney,他创建了pandas项目,在离职的时候顺利说服老板将这个非常有用的包进行了开源,他本人也是《利用Python进行数据分析》的作者,而这本书正是这次培训唯一推荐购买的教程。

padas是panel data的意思,也就是多维结构化数据。根据课程安排,这一节课讲入门,下一次课讲进阶。

今天讲课的内容主要有五个部分:

一、Series

padas数据结构主要有两种:Series和DataFrame。另外,它们的索引与其他的类型不太一样,也是一种对象,拿出来单独讲讲。

series在英文中的意思是系列的意思。这是一种类似与一元数组的结构,注意,用做结构,它的名称是要大写的。

比如,我们下面就是一个Series:

0 4
1 5
2 9
3 9

它的组成和一维数组也是一样的,由一组数据和一组数据标签(索引)组成。

两者的区别在于,一维数组的索引只能是从0开始的整数,而Series的索引可以自己定义。

和Numpy一样,在使用padas之前,也要引入padas包。

from padas import Series, Dataframe
import padas as pd

因为Series和DataFrame使用的次数非常多,所以把它引入本地命名空间。

1.创建Series的方法有三种

ser_1 = Series([4,5,9,9])
ser_1

输出的就是上面的那个Series

0    4
1    5
2    9
3    9
dtype: int64

最后把数据的格式也显示出来了。这个Series的索引是默认的,也就是从0到3。

ser_2 = Series([5,6,7,8],index= ['a','b','c','d'])
ser_2

输出:

a    5
b    6
c    7
d    8
dtype: int64

索引被重新定义了。

这时,可以用这个索引来获取这个Series的值了。

ser_2['b']

out:6

ser_2[['a','d']]

输出:

a    5
d    8
dtype: int64

注意:
1.第二个操作是一个切片操作,需要用两个中括号。
2.虽然重新定义了索引,之前的0-3默认索引仍然是有效的。比如:

ser_2[2]

仍然输出正确的值:

6

这种方法把Series当做一个有序的字典。比如:

sdata = {'Monday':7, 'Tuesday':6, 'Wedsday':6, 'Thursday':7, 'Friday':5, 'Saturday':2 }
ser_3 = Series(sdata)
ser_3

输出:

Friday      5
Monday      7
Saturday    2
Thursday    7
Tuesday     6
Wedsday     6
dtype: int64

2.Series的属性

查看Series属性有values、index、name,分别代表值、索引和名字。

前面两者都好理解:

ser_3.values
ser_3.index

分别输出:
array([5, 7, 2, 7, 6, 6], dtype=int64
Index(['Friday', 'Monday', 'Saturday', 'Thursday', 'Tuesday', 'Wedsday'], dtype='object')

大家可以看到,Series的值是一个数组对象,而其索引是一个Index对象,在后面我们会讲到。这两者都有类型,前者是64位整数型,而索引是字符型。

索引可以通过赋值的形式进行修改:

ser_3.index = ['Mon','Tue','Wed','Thu','Fri','Sat']
ser_3

索引就改变了:

Mon    5
Tue    7
Wed    2
Thu    7
Fri    6
Sat    6
Name: hours, dtype: int64

需要注意的是:Index只能整体被修改,它不支持单个索引的修改。

name属性可以定义,也可以没有。

当没有定义的时候,输出就为空。

ser_3.name = 'hours'
ser_3.name

这时才会有输出:'hour'

二、DataFrame

这种数据类型是一种表格型的数据结构。可以把它理解为多个Series的组成的字典,它们共用一个索引。里面的内容可以是不同的类型。

1.创建DataFrame

fdata = {'country':['United Satets', 'China', 'Japan', 'Germany', 'United Kingdom'],
    'capital':['Washington', 'Beijing', 'Tokoy', 'Berlin', 'London'],
    "population":[323, 1389, 127, 83, 66],
     "gdp":[19.42, 11.8, 4.84, 3.42, 2.5],
     "continent":["North America", "Asia", "Asia", "Europe", "Europe"]}
fram_1 = DataFrame(fdata)

会输出一个表格型的文件

字典的key就是每一列的索引。它的排序是按照字母排序的,如果你想要按照自己指定的顺序排列,可以用columns参数让它们重新排序。

DataFrame(fram_1,columnms = ['country', 'capital', 'population', 'gdp', 'continent'])

列就按照我们指定的顺序排列好了。

与Series一样,它也有一个默认的索引。与Series一样,我们也可以通过给其增加行标签(行索引)。

fram_2 = DataFrame(fdata, columns = ['country', 'capital', 'population','gdp', 'continent'], index = ['us', 'cn', 'jp', 'gm', 'uk'])
fram_2

2.从DataFrame获取一个Series

可以把Series视为DataFrame的子集,所以可以从DataFrame中获取一个Series

通过索引和属性的方式,可以将DataFrame的列获取为一个Series
比如:

fram_2['country']
fram_2.capital

分别得到的是两个Series:

注意两点:
1.返回的Series拥有原来DataFrame相同的索引。
2.DataFrame原来的列索引(columns)没有了,但增加了一个name属性。

fram_2.ix['cn']

因为Index对象之前没有被引用,所以用增加一个说明。

修改和增加DataFrame的值

fram_2['ar'] = (100,200,300,400,500)
fram_2['ka'] = 10
fram_2[]
ser_4 = Series(['North Kereo', "Pingrang", 'Asia'],index = ['country','capital','continent'])
fram_2['nk'] = ser_4
fram_2
fram_2['eastern'] = fram_2.continent == 'Asia'
fram_2
del fram_2['eastern']
fram_2
data = fram_2.drop([0,1])

删掉了第一和第二行,但fram_2这个DataFrame并没有变化。只有被赋值的data是去掉了第一和第二行。

fram_2.drop(fram_2.index[[0,1]],inplace=True)

这样来做,两行才在原来的DataFrame里同时被删除掉了。

修改行和列的标签(索引)

fram_2.index

Index(['us', 'cn', 'jp', 'gm', 'uk'], dtype='object')
这是原来的索引。
我们给变量赋一个新的行索引:

fram_2.index = ('US', 'CN', 'JP', 'GM', 'UK')
fram_2.index
Index(['US', 'CN', 'JP', 'GM', 'UK'], dtype='object')

标签已经被修改为大写的了。

行标签只能整体进行赋值,不能单个修改。这与Series是一样的。

fram_2.columns
Index(['country', 'capital', 'population', 'gdp', 'continent', 'ar', 'ka',
       'nk', 'attr'],
      dtype='object')

得到列的标签。将它的首字母全部改为大写:

fram_2.columns = ('Country', 'Capital', 'Population', 'Gdp', 'Continent', 'Ar', 'Ka',
       'Nk', 'Attr')

Index(['Country', 'Capital', 'Population', 'Gdp', 'Continent', 'Ar', 'Ka',
'Nk', 'Attr'],
dtype='object')

三、索引对象

前面多次提到,Series和DataFrame的索引比较特殊,它们只能被整体替换,单个不能被修改。

这个对象的名称是Index,它是不可修改的(immutable)。这个不可修改非常重要,保证了index的对象能够在多个数据结构之间安全的共享。

所以,也可以把Index理解为一个一维数组。

index = fram_2.index
index

输出:

Index(['US', 'CN', 'JP', 'GM', 'UK'], dtype='object')

索引对象也可以进行索引和切片:

index[2]取到的是‘JP'
index[0:2]取到的是标签的第一个第二个值。

四、pandas的数据选择

1.对Series的索引和切片

Series 的索引类似于Numpy数组的索引,只是Series的索引可以自行进行定义。

我们先从fram_2中选取一个Series:

fram_3 = fram_2['Gdp']
fram_3

US 19.42
CN 11.80
JP 4.84
GM 3.42
UK 2.50
Name: Gdp, dtype: float64

fram_3['CN']

输出中国的GDP:11.800000000000001

用默认的索引同样也可以得到相同的结果:

fram_3[1]

切片操作也是类似的方法。

fram_3['CN':'UK']
fram_3[1:]

上面这两个命令得到的结果是一样的:
CN 11.80
JP 4.84
GM 3.42
UK 2.50
Name: Gdp, dtype: float64

注意:利用标签的切片的末端(end)是包含的。

fram_3[1:3]
fram_3['CN':'GM']

这两个命令所选取的数据并不一致。
前者不包含索引末端的值,而后一个命令是包含的。

2.对DataFrame索引和切片

要注意,对DataFrame的索引选取的是列,而切片选取的是行。

比如:

fram_2['Population']

选择的就是面积这一列。输出的结果是:
US 323
CN 1389
JP 127
GM 83
UK 66
Name: Population, dtype: int64

得到的是一个Series数据。

通过索引,也可以选取多个列:

fram_2[['Gdp', 'Ar']]

注意:选多个列必须用两个方括号;而且这种方法得到的仍是一个DataFrame。

type(fram_2[['Gdp', 'Ar']])

得到它的格式为:
pandas.core.frame.DataFrame

是一个DataFrame。

fram_2[:]

这种方法是选取所有的行。输出整个DataFrame:

选取一个或多个行,就是采用切片方式:

fram_2[1:3]

选择的就是第一列:

3.用布尔型数组选取DataFrame的行

就是将条件换成一个条件表达式,比如:

fram_2[fram_2['Ar'] > 200]

将Ar列中大于200的所有行选了出来:k//..,m,m

也可以将DataFrame视为一个数组进行处理:

fram_2 >= 10

将所有的值都转换成了数值型:

fram_4 = fram_2[['Ar','Ka','Gdp']]
fram_4
fram_4[fram_4 >=10 ] = 0
fram_4

数值型的数据还可以直接修改值。注意:fram_4这个变量的值都发生了改变。

也可以采用下面这种方式:
fram_2[fram_2.Gdp >= 10]

可以将Gdp大于10的行选取出来

或者用:
fram_2.loc[fram_2.Gdp >= 10]
也是一样的。loc方法后面马上会讲到。

4.可以用变量的属性来选取值

也就是采用句点的方式,比如:

fram_2.Ar

得到一列的数据,得到的也是一个Series:

US    100
CN    200
JP    300
GM    400
UK    500
Name: Ar, dtype: int32

5.用loc和iloc方法

选择一行:

fram_2.loc['US']

选择多行:

fram_2.loc[['US','JP']]

可以同时选择列数据:

fram_2.loc[['US', 'JP'],['Gdp', 'Population']]

得到的是一列行和列的筛选后的数值。

如果只选择列数据,前面可以写为“:”。比如:

比如,上面也可以采用下面的这样的方式:

fram_2.iloc[[0,2],[3,2]]

结果是一样的:

注意:切片时,.loc()函数终索引的数值是包含在内的,而.iloc()的默认索引是不包含的。

案例讲解

我们通过一个具体的案例把前面的知识用起来。
比如:下面这个数据库。

数据一共5列,分别代表花萼长度、花萼宽度、花瓣长度、花瓣宽度、品种。

它一共有150行数据,每一个品种50行,前面3列数据如下:
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa

如果需要,可以在UCI数据库中下载。

第一步:从文件中引入数据

col_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'spices']
iris = pd.read_csv('iris.csv', names= col_names)
iris

显示出整个数据列表。因为数据非常大,显示了部分数据。

iris.head()

默认是5行数据,可以在括号内修改想要显示的行数。比如改为10:

iris.head(10)

就把前面的10行(数值索引0-9行)数据显示了出来。

默认的行数和使用方法也是一样的。

iris.head()

显示如下:

iris.info()

显示出整体的情况:

将表格类型、表格的行数、列数、各列数值的类型(其中多少非空的值、浮点型、字符型)、占用内存空间的大小。

iris.shape

得到它的形状是一个列表:
(150, 5)
也就是150行、5列。

iris.spices.unique()

显示的是唯一的种类:

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

得到的是一个numpy数组的形式。

iris.spices.value_counts()

得到如下值:

Iris-virginica     50
Iris-setosa        50
Iris-versicolor    50
Name: spices, dtype: int64

这种方法可以用来统计频率。

一个案例

鸢尾花数据分析是在大数据和机器学习领域经常采用的一个经典的数据集。

这个数据集是用来记录三种鸢尾花的花萼、花瓣的长度和宽度。

1.导入文件和检视数据

在分析之前,我们先把这个数据文件放在和py程序同一个目录下。而后导入这个文件:

col_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'spices']
iris = pd.read_csv('iris.csv', names= col_names)
iris

导出的文件如下:

显示过多,系统自动将中间的内容进行了折叠。

比如:

iris.head(10)

显示前面10行数据,如果括号内不填写的话,默认显示5行数据。

用iris.tail()来显示最后的5行数据。

iris有5个变量,150行数据,5个变量的类型有4个是float64型,1个字符型。

输出为(150,50)

比如:

iris.spices.unique()

得到如下结果:
array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

一共3个结果,分别是3种鸢尾花的类型。

iris.spices.value_counts()

得到详细的统计值:
Iris-virginica 50
Iris-setosa 50
Iris-versicolor 50
Name: spices, dtype: int64

2.选取数据

1)如果要选取花瓣的长度和宽度,也就是第2列和第3列。可以有三种方法:

iris[['petal_width','petal_length']]
iris.loc[:,['petal_width','petal_length']]
iris.iloc[:, [2,3]]

2)选取第6-第10列的内容。也有三种方法:

iris[6:11]
iris.iloc[6:10,:]
iris.iloc[6:11,:]

3)选取品种是 Iris-versicolor 的数据。

使用布尔表达式:

iris[iris.spices == 'Iris-versicolor']

3.散点图

通过图形化,能够快速得出数据之间的相关关系。

在python中使用散点图之前,首先要进行简单的设置(使用%魔术关键字):

# 在Python中直接输出图形
%matplotlib inline 

# 设置图形的清晰度
%config InlineBackend.figure_format = 'retina' 

设置散点图的基本设置如下:

iris.plot(kind = 'scatter', x = 'sepal_length', y = 'sepal_width')

scatter代表散点图,x轴和y轴的值需要定义好。得到下面这张图:

我们可以将三个品种的散点图都画出来。

setosa = iris[iris.spices == 'Iris-setosa']
versicolor = iris[iris.spices == 'Iris-versicolor']
virginica = iris[iris.spices == 'Iris-virginica']

ax = setosa.plot(kind='scatter', x= 'sepal_length', y = 'sepal_width', label = 'Iris-setosa', color = 'Blue', figsize=(10,6))
versicolor.plot(kind = 'scatter', x= 'sepal_length', y = 'sepal_width', label= 'Iris-versicolor', color = 'Green', ax=ax)
virginica.plot(kind = 'scatter', x = 'sepal_length', y = 'sepal_width', label = 'Iris-virginica', color = 'Red', ax= ax)

得到下面的图形:

label是图形里的说明标签,color是散点的颜色。

4.箱图

这是计算一系列数据的统计值的方法。

iris.describe()

得到下面这张表:

iris.petal_length.plot(kind = 'box')

结果如下:

iris[['petal_width', 'species']].boxplot(grid=False, by='species', figsize=(10, 6))

grid代表是否需要线段分隔,by之后的参数是根据这一列的分类数值进行分组,figsize是图形的大小。


知识本身不是力量,“知识+持续的行动”才是!

我是陶肚,每天陪你读点书。如果喜欢,请帮忙点赞或分享出去。

上一篇 下一篇

猜你喜欢

热点阅读