数据分桶、离散化的好处

2020-04-11 本文已影响0人有机会一起种地OT

将数据离散化、分桶是比较多件的数据处理方式。根据具体情况，这样的处理有以下好处

对连续变量的分桶，可以分为无监督分桶，有监督分桶。

无监督分桶主要包括等宽划分、等频划分。
等宽指按相同数值宽度分组，这时每组内数据量不定，受异常值影响相对大。pandas.cut方法实现等宽划分。
等频指将数据集分为几等份，每组内数据量是相同的。pandas.qcut实现等频划分。

有监督的划分方法主要指卡方分桶。其依赖于卡方检验，从每个数据单独为一组开始，不断地将具有最小卡方值的相邻区间合并在一起，直到所有组间卡方值都大于给定阈值。要注意初始化时需要对实例进行排序，在排序的基础上进行合并