异常值处理
2020-04-14 本文已影响0人
echolvan
使用3西塔准则来识别异常值
def outRange(Ser1):
boolInd = (Ser1.mean() - 3*Ser1.std() > Ser1) | (Ser1.mean() + 3*Ser1.std()) < Ser1
index = np.arange(Ser1.shape[0])[boolInd]
outrange = Ser1.iloc[index]
return outrange
3西塔准则具有一定的局限性,因此该原则只对正态分布或近似正态分布数据有效,其他分布无限
箱线图分析
QL -1.5IQR或QU+1.5IQR
QL为下四分位数
QU为上四分位数
IQR为上四分位与下四分位的差