数据分析流程
2020-04-14 本文已影响0人
姚宝淇
看数据集
分布情况、分散趋势(四分位数、方差)、中心趋势(均值、中位数)、正负样本比例
数据预处理
缺失值:删掉、邻近填充、平均值/中位数填充;
异常值:看箱型图判断,若是则删掉
平衡数据(必要时):过采样SMOTE
log变化(必要时):当模型需要正态分布样本而样本不符合时
分布情况、分散趋势(四分位数、方差)、中心趋势(均值、中位数)、正负样本比例
缺失值:删掉、邻近填充、平均值/中位数填充;
异常值:看箱型图判断,若是则删掉
平衡数据(必要时):过采样SMOTE
log变化(必要时):当模型需要正态分布样本而样本不符合时