数据预处理

2019-09-26  本文已影响0人  微斯人_吾谁与归

一.缺失值处理

1.直接使用带有缺失值的数据

2.舍弃该特征

3.缺失值填充

二.特征编码

1.特征二元化

特征二元化的过程是将数值型的属性转换为布尔值的属性。通常用于假设属性取值为取值分布为伯努利分布的情形。特征二元化的算法比较简单。 对属性 指定一个阈值 。
如果样本在属性上的值大于等于\alpha ,则二元化之后为 1 。
如果样本在属性 上的值小于\alpha ,则二元化之后为 0 。
\alpha是一个超参数,其选取需要结合模型和具体的任务来选择。

2.one-hot

One-Hot Encoding 的优点
1)能够处理非数值属性。
2)在一定程度上也扩充了特征。如性别是一个属性,经过独热码编码之后变成了是否男 和 是否女 两个属性。
3)编码后的属性是稀疏的,存在大量的零元分量。

3.离散化

三.数据标准化、正则化

四.特征选择

五.稀疏表示和字典学习

六.多类分类问题

七. 类别不平衡问题

上一篇下一篇

猜你喜欢

热点阅读