特征工程：预处理

2020-03-15 本文已影响0人老姚记事本

数据和特征决定了机器学习的上限

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征工程包含：Data PreProcessing（数据预处理）、Feature Extraction（特征提取）、Feature Selection（特征选择）和Feature construction（特征构造）

数据预处理包括：数据清洗、特征预处理

无量纲化使不同规格的数据转换到同一规格(绝对 to 相对)，常见的无量纲化方法有标准化和归一化

标准化就是统计学正态分布的标准化，前提是特征值服从正态分布。

把所有的数据都映射到同一个尺度（量纲）上。

留给未来todo

连续值的取值空间可能是无穷的，为了便于表示和在模型中处理，需要对连续值特征进行离散化处理。例如将人群年龄分为40岁以上和以下。

​特征工程：预处理