特征工程:预处理
2020-03-15 本文已影响0人
老姚记事本
数据和特征决定了机器学习的上限
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
特征工程包含:Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)
数据预处理包括:数据清洗、特征预处理

数值型特征无量纲化
无量纲化使不同规格的数据转换到同一规格(绝对 to 相对),常见的无量纲化方法有标准化和归一化
无纲化原因:
- 某些算法要求样本具有零均值和单位方差;
- 需要消除样本不同属性具有不同量级时的影响;
1. 标准化
标准化就是统计学正态分布的标准化,前提是特征值服从正态分布。
- 优点:简单,容易计算
- 缺点:
- 总体平均值与方差一般无法得知,需要用样本估计
- 一般要求数据符合正态分布
- 在存在异常值时无法保证平衡的特征尺度
- z值与原数据无直接关系
2. 归一化
把所有的数据都映射到同一个尺度(量纲)上。
-
MinMax归一化
-
MaxAbs归一化
3.正态分布化
留给未来todo
数值型特征特征分箱(数据离散化)
连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。例如将人群年龄分为40岁以上和以下。