大数据分析

Python数据分析库pandas 使用指南,成都大数据分析零基

2019-01-25  本文已影响6人  f46294cfe85d

      Python是开源的,所以有很多开源固有的问题。如果你是Python新手,很难知道针对特定任务的包哪个是最好的。你需要有经验的人来告诉你。今天我要告诉你们的是:在数据科学中,有一个软件包是你们绝对需要学习的,那就是pandas。

      而pandas真正有趣的地方是,很多其他的包也在里面。pandas是一个核心包,因此它具有来自其他各种包的特性。​

pandas类似于Python中的Excel:它使用表(即DataFrame)并对数据进行转换,但它还能做更多。如果你已经熟悉Python,可以直接进入第三部分。      大数据开发数据分析与挖掘,2019春节前 报名学费特惠活动,详情见加米谷大数据官网

现在让我们开始:import pandas as pd

pandas包最基本的功能

1、读取数据

data = pd.read_csv('my_file.csv')

data=pd.read_csv('my_file.csv',sep=';',encoding='latin-1',nrows=1000, kiprows=[2,5])

sep变量代表分隔符。因为Excel中的csv分隔符是“;”,因此需要显示它。编码设置为“latin-1”以读取法语字符。nrows=1000表示读取前1000行。skiprows=[2,5]表示在读取文件时将删除第2行和第5行

最常用的函数:read_csv, read_excel

还有一些很不错的函数:read_clipboard、read_sql

2、写入数据

data.to_csv('my_new_file.csv', index=None)

index=None将简单地按原样写入数据。如果你不写index=None,会得到额外的行。

我通常不使用其他函数,比如to_excel,to_json,to_pickle,to_csv,虽然它们也做得很好,但是csv是保存表最常用的方法。

3、检查数据

data.shape

data.describe()

data.head(3)

.head(3)打印数据的前3行,.tail()函数将查看数据的最后一行。

data.loc[8]

打印第8行。

data.loc[8, 'column_1']

将第8行值打印在“column_1”上。

data.loc[range(4,6)]

打印第4行到第6行。

pandas的初级功能

1、逻辑运算

data[data['column_1']=='french']

data[(data['column_1']=='french') & (data['year_born']==1990)]

data[(data['column_1']=='french')&(data['year_born']==1990)&(data['city']=='London')]

如果要根据逻辑操作对数据进行运算,在使用& (AND)、~ (NOT)和| (OR)等逻辑操作之前和之后添加“(”&“)”。

data[data['column_1'].isin(['french', 'english'])]

不要为同一列编写多个OR,最好是使用.isin()函数。

2、基本绘图

多亏了matplotlib包,这个特性才得以实现。就像我们在介绍中说的,它可以直接用在pandas身上。

data['column_numerical'].plot()​

图 1 .plot() 输出示例

data['column_numerical'].hist()

绘制分布图(直方图)

图 2 .hist() 函数输出示例

%matplotlib inline

如果你使用Jupyter,在绘图之前,不要忘记写这一行(在代码中只写一次)

3、更新数据

data.loc[8, 'column_1'] = 'english'

将' column_1 '的第8行值替换为' english '

data.loc[data['column_1']=='french', 'column_1'] = 'French'

在一行中更改多行值

pandas的中级功能

现在你可以做一些在Excel中很容易做的事情。让我们来挖掘一些在Excel中做不到的神奇事情。

1、计算功能

data['column_1'].value_counts()

全文:https://www.toutiao.com/i6650277512960016900/

上一篇下一篇

猜你喜欢

热点阅读