特征工程的几种常见方法

2019-03-10 本文已影响0人谦之

目的：将所有的数值型特征归一化到一个固定的区间

Why：以使用梯度下降算法作为优化算法的模型为例，归一化好的特征能够帮助模型更快的迭代，找到最优解

How: 线性归一化、均值归一化

缺点：对于梯度下降算法的模型比较有用，对决策树一类的模型，无需归一化

目的：有些模型转化成数值型特征才能继续工作

Why: 对于某些字符串特征无法直接编码，需要转化成数字编码

How:

缺点：编码种类众多，如何选择适合的编码是个问题

自然语言的特征清洗过程

目的：如果一类特征有特别多的特征类别，容易发生过拟合，可以使用基于决策树的特征组合寻找方法，将特征判别组合成一条决策树的路径，在路径上进行二分类，得到特征的选择。

目的：找到一个线性变换，在降低维度的情况下，使得关注的结果最优

LDA：线性判别分析

大致思路：将两部分内容映射到一个超平面上，使得同类样本之间的协方差最小，不同类样本集合的中心距离最大，可以用作降维，或者进行有监督分类

PCA：

大致思路：选择投影后使得数据方差最大的方向来投影，将原始数据转化为一组各维度线性无关的表示，与LDA最大区别为无监督，收益函数是重构后的矩阵各字段两两之间协方差为0，字段方差尽可能大

ICA：

大致思路：

3.1 相关性分析