数据分桶、离散化的好处

2020-04-11  本文已影响0人  有机会一起种地OT

将数据离散化、分桶是比较多件的数据处理方式。根据具体情况,这样的处理有以下好处



对连续变量的分桶,可以分为无监督分桶,有监督分桶。

无监督分桶主要包括等宽划分、等频划分。
等宽指按相同数值宽度分组,这时每组内数据量不定,受异常值影响相对大。pandas.cut方法实现等宽划分。
等频指将数据集分为几等份,每组内数据量是相同的。pandas.qcut实现等频划分。

有监督的划分方法主要指卡方分桶。其依赖于卡方检验,从每个数据单独为一组开始,不断地将具有最小卡方值的相邻区间合并在一起,直到所有组间卡方值都大于给定阈值。要注意初始化时需要对实例进行排序,在排序的基础上进行合并

上一篇下一篇

猜你喜欢

热点阅读