维灾难

2019-04-06 本文已影响0人 Vurtex

从1维到3维，为我们的感觉是：维度越高，分类性能越优。然而，维度过高将导致一定的问题：在一维特征空间下，我们假设一个维度的宽度为5个单位，这样样本密度为
10/5=2;在2维特征空间下，10个样本所分布的空间大小55=25，这样样本密度为
10/25=0.4;在3维特征空间下，10个样本分布的空间大小为55*5=125，样本密度就为
10/125=0.08。

如果继续增加特征数量，随着维度的增加，样本将变得越来越稀疏，在这种情况下，也更容易找到一个超平面将目标分开。然而，如果我们将高维空间向低维空间投影，高维空间隐藏的问题将会呈现出来。
过多的特征导致的过拟合现象：训练集上表现良好，但是对新数据缺乏泛化能力。

从1维到3维

总结

距离测量开始失去其在高维空间中测量的有效性，由于分类器取决于这些距离测量，因此在较低维空间中分类通常更容易，其中较少特征用于描述感兴趣对象。

如果理论无限数量的训练样本可用，则维度的诅咒不适用，我们可用简单的使用无数个特征来获得完美的分类。训练数据的大小越小，应使用的功能就越少。如果N个训练样本足以覆盖单位区间大小的1D特征空间，则需要N ^ 2个样本来覆盖具有相同密度的2D特征空间，并且在3D特征空间中需要N ^ 3个样本。换句话说，所需的训练实例数量随着使用的维度数量呈指数增长。

维灾难

总结

猜你喜欢

热点阅读