python 与数据分析

Pandas基础方法介绍

2019-08-12 本文已影响0人 1217

导读：Pandas是日常数据分析师使用最多的分析和处理库之一，本篇文章总结了常
Pandas最常用的数据对象是数据框（DataFrame）和Series。数据框与R中的DataFrame格式类似，都是一个二维数组。Series则是一个一维数组，类似于列表。数据框是Pandas中最常用的数据组织方式和对象。有关更多数据文件的读取将在第三章介绍，本节介绍从对象和文件创建数据框的方式，如图1所示：

image.png

2 查看数据信息

查看信息常用方法包括对总体概况、描述性统计信息、数据类型和数据样本的查看，具体如表2所示：

image.png

image.png

注意：在上述查看方法中，除了info方法外，其他方法返回的对象都可以直接赋值给变量，然后基于变量对象做二次处理。例如可以从dtype的返回值中仅获取类型为bool的列。

3、数据切片和切块

数据切片和切块是使用不同的列或索引切分数据，实现从数据中获取特定子集的方式。常见的数据切片和切换的方式如表3所示：

image.png

提示：如果选择特定索引的数据，直接写索引值即可。例如data2.loc[2,['col1','col2']]为选择第三行且列名为'col1'和'col2'的记录。

4、数据筛选和过滤

数据筛选和过滤是基于条件的数据选择，本章2.6.3提到的比较运算符都能用于数据的筛选和选择条件，不同的条件间的逻辑不能直接用and、or来实现且、或的逻辑，而是要用&和|实现。常用方法如表4所示：

image.png

5、数据预处理操作

Pandas的数据预处理基于整个数据框或Series实现，整个预处理工作包含众多项目，本节列出通过Pandas实现的场景功能。本节功能具体如表5所示：

image.png

image.png

6、数据合并和匹配

数据合并和匹配是将多个数据框做合并或匹配操作。具体实现如表6所示：

image.png

7、数据分类汇总

数据分类汇与Excel中的概念和功能类似。具体实现如表7所示：

image.png

8、高级函数使用

Pandas能直接实现数据框级别高级函数的应用，而不用写循环遍历每条记录甚至每个值后做计算，这种方式能极大提升计算效率，具体如表8所示：

image.png

上一篇下一篇

猜你喜欢

热点阅读