数据缩放与标准化方法简述

2022-10-24  本文已影响0人  倪桦

特征值缩放简介

使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始测量值进行 特征缩放

数据缩放,在统计学中的意思是,通过一定的数学变换方式,将原始数据按照一定的比例进行转换,将数据放到一个小的特定区间内,比如0~1或者-1~1。目的是消除不同样本之间特性、数量级等特征属性的差异,转化为一个无量纲的相对数值,使得各个样本特征量数值都处于同一数量级上。【无量纲化】

1、特征间可比的缩放方法

Z-Score不反映数据的实际意义,仅反映出不同特征对同一样本的贡献度(Contribution),Z-Score的结果只能用于比较特征间比较。

2、特征值缩放方法

2.1 当数据较为波动时候,需要将数据的方差进行稳定: 对数转换(Log Transform): \ \ \ \log_2 {(x+1)}

  • 不改变数据性质和相关关系的前提下压缩数据尺度,将宽范围压缩为更窄范围(加速运算);
  • 放大小数值反映的差异敏感度和减弱大数值反映的差异敏感度;
  • 有助于稳定数据波动(弱化异方差性,让数据的方差总体恒定,保证参数估计量(如均值)具有良好的统计性质,
    经典回归模型的前提:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。
    用途:使得同一特征的测量值在样本间具有可比性(比如让同一基因的表达量在不同细胞之间具有可比性,并且更加关注变化倍数的比较)。

在统计学中为什么要对变量取对数? - 知乎 (zhihu.com)

2.2 当数据波动稳定,且不存在极端的最大最小值,可用以下归一化方法来优化计算性能

  • 极差标准化(Min-Max Normalization) \ \ \ \frac {x - min(X)}{max(X) - min(X)}\ \
    将当前尺度的测量值映射到[0:1]区间上,不改变原有数据分布结构。
  • 最大绝对值法(MaxAbs) \ \ \ \frac {x}{max(|X|)}\ \
    将当前尺度的测量值映射到[-1:1]区间上,不改变原有数据分布结构。
  • log转换(Log Transform) \ \ \ \frac {\log_{10} (x+1)} {log_{10} (max(X))}
    该方法适用于将指数分布的数据缩放到[0:1]区间,不改变数据原始结构
上一篇 下一篇

猜你喜欢

热点阅读