10 个 Pandas 实用技巧

2021-07-14 本文已影响0人逍遥_yjz

显示已安装的版本
创建示例DataFrame
更改列名
行序反转
列序反转
通过数据类型选择列
将字符型转换为数值型
减小DataFrame空间大小
按行从多个文件中构建DataFrame
按列从多个文件中构建DataFrame

1. 显示已安装的版本

输入下面的命令查询pandas版本：

In [7]:pd.__version__
Out[7]:'0.24.2'

如果你还想知道pandas所依赖的模块的版本，你可以使用show_versions()函数:

In [9]：
pd.show_versions()

INSTALLED VERSIONS 
------------------ 
commit: None 
python: 3.7.3.final.0 
python-bits: 64 
OS: Darwin 
OS-release: 18.6.0 
machine: x86_64 
processor: i386 
byteorder: little 
LC_ALL: None 
LANG: en_US.UTF-8 
LOCALE: en_US.UTF-8 

pandas: 0.24.2 
pytest: None 
pip: 19.1.1 
setuptools: 41.0.1 
Cython: None 
numpy: 1.16.4 
scipy: None 
pyarrow: None 
xarray: None 
IPython: 7.5.0 
sphinx: None 
patsy: None 
dateutil: 2.8.0 
pytz: 2019.1 
blosc: None 
bottleneck: None 
tables: None 
numexpr: None 
feather: None 
matplotlib: 3.1.0 
openpyxl: None 
xlrd: None 
xlwt: None 
xlsxwriter: None 
lxml.etree: None 
bs4: None 
html5lib: None 
sqlalchemy: None 
pymysql: None 
psycopg2: None 
jinja2: 2.10.1 
s3fs: None 
fastparquet: None 
pandas_gbq: None 
pandas_datareader: None 
gcsfs: None

你可以查看到Python，pandas, Numpy, matplotlib等的版本信息。

2. 创建示例DataFrame

假设你需要创建一个示例DataFrame。有很多种实现的途径，我最喜欢的方式是传一个字典给DataFrame constructor，其中字典中的keys为列名，values为列的取值。

现在如果你需要创建一个更大的DataFrame，上述方法则需要太多的输入。在这种情况下，你可以使用Numpy的random.rand()函数，告诉它行数和列数，将它传递给DataFrame constructor：

这种方式很好，但如果你还想把列名变为非数值型的，你可以强制地将一串字符赋值给columns参数：

你可以想到，你传递的字符串的长度必须与列数相同。

3. 更改列名

让我们来看一下刚才我们创建的示例DataFrame:

我更喜欢在选取pandas列的时候使用点（.），但是这对那么列名中含有空格的列不会生效。让我们来修复这个问题。

更改列名最灵活的方式是使用rename()函数。你可以传递一个字典，其中keys为原列名，values为新列名，还可以指定axis:

In [14]:
df = df.rename({'col one':'col_one', 'col two':'col_two'}, axis='columns')

使用这个函数最好的方式是你需要更改任意数量的列名，不管是一列或者全部的列。

如果你需要一次性重新命令所有的列名，更简单的方式就是重写DataFrame的columns属性：

In [15]:
df.columns = ['col_one', 'col_two']

如果你需要做的仅仅是将空格换成下划线，那么更好的办法是使用str.replace()方法，这是因为你都不需要输入所有的列名：

In [16]:
df.columns = df.columns.str.replace(' ', '_')

上述三个函数的结果都一样，可以更改列名使得列名中不含有空格：

最后，如果你需要在列名中添加前缀或者后缀，你可以使用add_prefix()函数：

或者使用add_suffix()函数：

image.png

4.行序反转

让我们来看一下drinks这个DataFame:

In [20]:
drinks.head()

Out[20]:

country beer_servings   spirit_servings wine_servings   total_litres_of_pure_alcohol    continent
0   Afghanistan 0   0   0   0.0 Asia
1   Albania 89  132 54  4.9 Europe
2   Algeria 25  0   14  0.7 Africa
3   Andorra 245 138 312 12.4    Europe
4   Angola  217 57  45  5.9 Africa

该数据集描述了每个国家的平均酒消费量。如果你想要将行序反转呢？

最直接的办法是使用loc函数并传递::-1，跟Python中列表反转时使用的切片符号一致：

In [21]:
drinks.loc[::-1].head()

Out[21]:

country beer_servings   spirit_servings wine_servings   total_litres_of_pure_alcohol    continent
192 Zimbabwe    64  18  4   4.7 Africa
191 Zambia  32  19  4   2.5 Africa
190 Yemen   6   0   0   0.1 Asia
189 Vietnam 111 2   1   2.0 Asia
188 Venezuela   333 100 3   7.7 South America

如果你还想重置索引使得它从0开始呢？

你可以使用reset_index()函数，告诉他去掉完全抛弃之前的索引：

In [22]:
drinks.loc[::-1].reset_index(drop=True).head()

Out[22]:

country beer_servings   spirit_servings wine_servings   total_litres_of_pure_alcohol    continent
0   Zimbabwe    64  18  4   4.7 Africa
1   Zambia  32  19  4   2.5 Africa
2   Yemen   6   0   0   0.1 Asia
3   Vietnam 111 2   1   2.0 Asia
4   Venezuela   333 100 3   7.7 South America

你可以看到，行序已经反转，索引也被重置为默认的整数序号。

5. 列序反转

跟之前的技巧一样，你也可以使用loc函数将列从左至右反转：

In [23]:
drinks.loc[:, ::-1].head()

Out[23]:

continent   total_litres_of_pure_alcohol    wine_servings   spirit_servings beer_servings   country
0   Asia    0.0 0   0   0   Afghanistan
1   Europe  4.9 54  132 89  Albania
2   Africa  0.7 14  0   25  Algeria
3   Europe  12.4    312 138 245 Andorra
4   Africa  5.9 45  57  217 Angola

逗号之前的冒号表示选择所有行，逗号之后的::-1表示反转所有的列，这就是为什么country这一列现在在最右边。

6. 通过数据类型选择列

这里有drinks这个DataFrame的数据类型：

In [24]:
drinks.dtypes

Out[24]:
country                          object
beer_servings                     int64
spirit_servings                   int64
wine_servings                     int64
total_litres_of_pure_alcohol    float64
continent                        object
dtype: object

假设你仅仅需要选取数值型的列，那么你可以使用select_dtypes()函数：

In [25]:
drinks.select_dtypes(include='number').head()

Out[25]:

beer_servings   spirit_servings wine_servings   total_litres_of_pure_alcohol
0   0   0   0   0.0
1   89  132 54  4.9
2   25  0   14  0.7
3   245 138 312 12.4
4   217 57  45  5.9

这包含了int和float型的列。

你也可以使用这个函数来选取数据类型为object的列：