2019-04-08
2019-04-08 本文已影响0人
AliceGYY
一、离散化
简单离散
通过定义一些划分规则,将原来连续的数据划分成不同的类别,从而将数据离散化。
分桶后平滑
先根据数据的情况设置一些阈值,在每个桶中可以分别使用落入该桶中所有收入的平均数、中位数、以及边界值来替代桶中所有的数值,这三种方式分别称为平均平滑、中值平滑、以及边界值平滑。
聚类离散
把相同、相似以及相近的数据进行聚合。对每一个聚类的簇进行命名后就是离散的结果。
回归平滑
对两个有相关性的变量进行拟合,用拟合线上的数值代替原来的数值,本质上是进行数据噪声的处理。进行回归平滑后的数据已经具备了线性条件,因而可以使用非常明确的边界值对其进行划分,分成两个或多个。
二、属性构造
属性、字段、特征其实都是同一个意思,就是excel表头上的内容,比如姓名、年龄、身高。
特征工程
通过属性与属性的连接,构造新的属性,比如每天的上网时间这个属性,就可以构造一周的上网时间这个属性。
随意构造后筛选
任意两个或三个乃至更多的属性都可以组合在一起,加减乘除都没有问题。那么构造了这么多属性,怎么判断该使用哪个属性该不该使用哪个属性呢?这里就可以用到XGboost进行筛选。