归一化和标准化
2020-06-14 本文已影响0人
bigdata张凯翔
什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
参考链接:https://www.jianshu.com/p/95a8f035c86c
标准化和中心化公司
-
标准化
(1)Z-score规范化(标准差标准化 / 零均值标准化)
x' = (x - μ)/σ -
中心化
x' = x - μ
数据归一化的几种
数据预处理时
归一化
(1)Min-Max Normalization
x' = (x - X_min) / (X_max - X_min)
(2)平均归一化
x' = (x - μ) / (MaxValue - MinValue)
(1)和(2)有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
(3)非线性归一化
1)对数函数转换:y = log10(x)
2)反余切函数转换:y = atan(x) * 2 / π
3)经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。