IT@程序员猿媛猿客栈互联网科技

pandas基本介绍及安装

2019-04-21  本文已影响16人  Kkite
panda1.jpg

在此附上视频教程

一、基本介绍

1.pandas是基于numpy的一种工具,或者说pands与numpy是相辅相成的两个进行数据处理与分析的工具,pands提供了大量能使我们便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要元素之一。
2.pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开发出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来源与面板数据(Panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

二、Pandas 安装(Win10)

在命令行中键入以下命令就可以啦(Win + R呼出cmd命令行窗口)

pip install pandas

pandasInstall.png

二、数据类型

Series:序列,如下定义

s = pd.Series([1, 3, 6, np.nan, 44, 1]) # np.nan相当于None

如下图: pic1.png

可以看到打印出来的序列中的元素前都有一个与之对应的序号,dtype:float64为序列中的数据类型

时间序列

dates = pd.data_range('20190421', periods = 6) # 表示从20190421开始生成6个数据

如下图: pic2.png

DataFrame: 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主,如下定义

df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A','B','C','D'])

如下图:

pic3.png
可看出,生成二维的表格型数据结构,行的索引index为上面所定义的dates,列的索引为columns,如果不自定义行或列的索引,会默认为从0开始的数列为索引
或者用字典类型进行定义:

df2 = pd.DataFrame({'A': 1.,
'B': pd.Timestamp('20190421'),
'C': pd.Series(1, index=list(range(4)), dtype='float32'),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(["test", "train", "test", "train"]),
'F': 'foo'})

如下图:

pic4.png
DataFrame的属性的查看:

df2.dtypes

如下图: pic5.png

其他方法:

df2.index # 查看行的名称及属性
df2.columns # 查看列的名称及属性
df2.value # 输出表格中的所有数据
df2.T # 相当于矩阵中的转置
df2.sort_index(axis=1, ascending=False) # 对列进行倒序
df2.sort_index(axis=0, ascending=False) # 对行进行倒序
df2.sort_values(by='E') # 对表中E列的数据进行排序

好啦,以上就是这次对Pandas的介绍与一些简单的定义。

欢迎大家在下方评论与留言或者给出建议,如有错误请指出。希望这篇博文能帮助到刚学习这个的同学,也欢迎大家分享给需要的人。

如需转载,请注明出处。

上一篇下一篇

猜你喜欢

热点阅读