Machine Learning && Computational CatalysisTensorFlow技术帖

特征工程笔记(Feature Engineering)

2017-08-30  本文已影响148人  __jwzhang__

数据和特征决定了机器学习的上限,而模型和算法只是不断地逼近这个上限。

特征工程.png

图片来自知乎

往往拿到的数据会有以下问题:
- 量纲不统一
- 定性特征不能直接拿来使用,需要转换
- 缺失值
- 信息利用率低

无量纲化:无量纲化使不同规格的数据转换到同一规格,常见的方法有标准化和区间缩放法。标准化的前提是特征值符从正态分布,标准化后,将其转换成标准正态分布。区间缩放则利用了边界值信息,将特征的值域缩放到特定的范围(比如[0,1])。

标准化:公式如下
均值和方差
区间缩放
标准化和归一化的区别(参考知乎答案)

归一化方法

对定量特征二值化:

定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0,公式表达如下:


对定性特征压扁吗: One-hot 编码
缺失值计算: 比如通过其他特征作为输入,缺失特征作为输出。通过随机森林预测缺失特征的缺失值。
数据变换:基于多项式,基于指数函数,基于对数函数等。

特征选择

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

根据特征选择的形式又可以将特征选择方法分为3种:

Filter Embedded Wrapper
方差选择法 基于惩罚项的特征选择法 递归特征消除法
相关系数法 基于树模型的特征选择法
卡方检验
互信息法

降维

上一篇 下一篇

猜你喜欢

热点阅读