pandas学习笔记之缺失值处理
2021-03-21 本文已影响0人
cugliming
对于数据中的缺失值,有两种处理思路:
- 删除
- 插补
如何判断数据中是否存在缺失值?
-
pd.isnull(df) -> np.any(pd.isnull(df))
返回True,则有缺失值 -
pd.notnull(df) -> np.all(pd.notnull(df))
返回False,则有缺失值 - 判断某一列是否有缺失值:
- pd.isnull(df).any()
-
pd.notnull(df).all()
判断列是否有缺失值
判断列是否有缺失值
-
将数据某一列中不包含空值的数据输出来:
将 Ve 列中不包含空值的数据输出
删除含有缺失值的数据:
-
df.dropna(axis=, inplace=)
- 默认按行删除,axis="rows"
- 默认inplace=False,不替换、修改原始数据,生成新的对象
对缺失值进行插补:
-
df.fillna(value, inplace=)
可选择填充平均值:
data["Ve"].fillna(data["Ve"].mean())
缺失值为其他标记
例如,缺失值标记为“?”
将?
替换为np.nan
,再做其他相似处理
df.replace(to_replace="?", value=np.nan)