Pandas 100道练习题(一)
2020-09-27 本文已影响0人
butters001
Pandas 100道练习题(一)
经过前面愉快(枯燥🥱)的接口学习,现在让我们来放松一下,轻轻松松的小试牛刀一把。
Importing pandas
难度:超级easy
- 导入pandas库
import pandas as pd
- 打印pandas版本信息
pd.__version__
- 打印pandas依赖包及其版本信息
pd.show_versions()
DataFrame basics
难度:easy
- 创建一个DataFrame(df),用
data
做数据,labels
做行索引
import numpy as np
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data=data, index=labels)
df.png
- 显示有关此df及其数据的基本信息的摘要
df.describe()
# 或
df.info()
image.png
- 查看此df的前三行数据
df.head(3)
image.png
- 选择df中列标签为
animal
和age
的数据
df.loc[:, ['animal', 'age']]
image.png
- 选择行为
[3, 4, 8]
,且列为['animal', 'age']
中的数据
df.iloc[[3, 4, 8]].loc[:, ['animal', 'age']]
# 或
df.loc[df.index[[3, 4, 8]], ['animal', 'age']]
image.png
- 选择
visuts
大于3的行
df[df['visits']>3]
- 选择
age
为缺失值的行
df[df['age'].isnull()]
- 选择
animal
为cat,且age
小于3的行
df[(df['animal']=='cat') & (df['age']<3)]
- 选择
age
在2到4之间的数据(包含边界值)
df[df['age'].between(2, 4, inclusive=True)]
- 将f行的
age
改为1.5
df.loc['f', 'age']=1.5
- 计算
visits
列的数据总和
df['visits'].sum()
- 计算每种
animal
的平均age
df.groupby('animal')['age'].mean()
- 追加一行(k),列的数据自定义,然后再删除新追加的k行
df.loc['k'] = df.loc['a'].values
df.drop('k', inplace=True)
- 计算每种
animal
的个数(cat有几个,dog几个...)
df.groupby('animal').size()
# 或
df['animal'].value_counts()
- 先根据
age
降序排列,再根据visits
升序排列
df.sort_values(by=['age', 'visits'], ascending=[False, True])
- 将
priority
列的yes和no用True和False替换
df['priority'] = df['priority'].replace(to_replace=['yes', 'no'], value=[True, False])
# 也可以用map方法
df['priority'] = df['priority'].map({'yes': True, 'no': False})
- 将
animal
列的snake用python替换
df['animal'] = df['animal'].replace(to_replace='snake', value='python')
- 对于每种动物类型和每种访问次数,求出平均年龄。换句话说,每一行都是动物,每一列都是访问次数,其值是平均年龄(提示:使用数据透视表)
df.pivot_table(index='animal', columns='visits', values='age', aggfunc='mean')
image.png