Pandas 数据处理

2020-06-08 本文已影响0人 ln_ivy

pd可以完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外，Pandas 拥有强大的缺失数据处理与数据透视功能，是数据预处理中的利器。

1.数据类型：

Pandas 的数据类型主要有以下几种，它们分别是：Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）。其中 Series 和 DataFrame 应用的最为广泛，几乎占据了使用频率 90% 以上。

Pandas 基于 NumPy 开发。那么 NumPy 的数据类型 ndarray 多维数组自然就可以转换为 Pandas 中的数据。而 Series 则可以基于 NumPy 中的一维数据转换。

2.DataFrame :DataFrame 和平常的电子表格或 SQL 表结构相似,它和 Series 的直观区别在于，数据不但具有行索引，且具有列索引。

区别于 Series，其增加了 columns 列索引。DataFrame 可以由以下多个类型的数据构建：

一维数组、列表、字典或者 Series 字典。

二维或者结构化的 numpy.ndarray。

一个 Series 或者另一个 DataFrame。

3. 数据读取: Pandas 提供了一系列的方法来读取外部数据，非常全面。读取数据 CSV 文件的方法是 pandas.read_csv()，可以直接传入一个相对路径，或者是网络 URL。pd.read_前缀开始的方法还可以读取各式各样的数据文件，且支持连接数据库。DataFrame 是 Pandas 构成的核心。一切的数据，无论是外部读取还是自行生成，我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。

pandas预览数据的方法: