爱不释手的Pandas
作为一门编程语言,Python是怎样被神话的?我想除了其简洁、容易被理解外,最大的优势就是对数据的处理。
Pandas(Python Data Analysis Library)是Python下非常优秀科学计算库,也是这类逆天的库,让Python越来越好用,使用的人越来越多。
在学习Tushare库的时候,我发现自己对Python的数组的理解还是很有限,进一步了解NumPy库后,发现Python对数组的处理,依托于这些第三方库,要比Ruby对数组的处理更强大。
于是我放下原计划,开始从Pandas开始学起。初看起来,按照我的理解,Pandas很像是运行在Python里的数据库,而你无须安装任何数据库软件,怪不得是金融计算和科学计算的最爱。
一、DataFrame的创建
根据我的学习习惯,都是跳过不太常用的基础部分,直接在进阶部分学习。这样的习惯一方面能大大提高学习效率,另一方面也会带来基础不牢的弊端。好在有万能的百度,只要能达到我想要的效果,我不太介意代码的低效。
于是我调过一维数组直接进入二维的学习,在Pandas里,二维数组是使用DataFrame--一种被定义为数据框的东西,可以把它想象成一个电子表格,或者是VFP里的表格。
Pandas是基于numpy的,所以在代码最前方要调用numpy库
然后构建一个二维数组,其实和数据库里用命令行建表类似:
然后定义为DataFrame,并打印输出:
得到的结果如下:
这样就建好了一张表了!Pandas有个很好用的功能,就是一键导出excel!
代码这样写:
生成的Excel表是这样的(xlsx格式):
二、DataFrame的查询
我要是想查找指定的行列怎么办啊?pandas自带index参数,写为ix:
这行代码的意思是打印输出第三行第二列(程序语言大多数都是从0开始)。
程序输出:adidas
如果不知道具体位置,只知道某一个条件呢?也无妨:
程序输出:
至此,Pandas入门学习到此结束,我不禁拍手叫好。怪不得Python处理excel能力那么烂,因为根本不需要处理啊!都在Pandas里处理好了,直接输出就ok了。