机器学习 - 特征工程

2021-02-26  本文已影响0人  郭彦超

数据处理

探索数据分布

探索数据分布可快速发现奇异值、缺失值以及特征与目标的共线关系

二项分布:n次独立的伯努利分布实验中 成功次数的离散概率分布

泊松分布:在固定时间范围内 事件发生多少次的概率受平均值的影响

正态分布:数据平均值和中位数相等,对称轴的左右数据量相等


标准正态分布

归一化处理

去量纲 让不同维度数据具有可比性

需要注意的是决策树这类预测模型不需要进行归一化处理

特征转换

将字符特征映射为数值特征

特征降维

提升模型性能,防止过拟合

特征选择与特征提取

上一篇下一篇

猜你喜欢

热点阅读