降维
2022-01-20 本文已影响0人
AntiGravity
为什么要降维
不降维可能过拟合。
目的
-
找到宏观信息
- 找到潜在变量
- 选出重要变量
高维稀疏向量的局部信息过多,例如购买商品。
-
找到交叉效应
-
不建议先降维再拟合模型
- 丢失局部信息
- 先验知识很有限
PCA
将原样本x投影到各个主成分上,使在主成分方向投影的方差最大(从第一个开始每个都最大),且不同主成分之间不相关。
NMF(X非负)
分解X(原样本)=B(基向量)W(权重)
损失函数:||X-BW||F (frobenius norm)
tSNE
非线性降维。
目标 - 高维原样本x → 低维新样本y
定义xi与xj的相似度 - 以xi为中心的高斯分布的xj的概率密度
高斯核σ - 数据越密取值越小(可按局部数据空间密度变化)
定义yi与yj的相似度 - 柯西分布(学生t-分布,即tSNE的t)
定义yi的位置 - 以x与y分布的KL散度为损失函数
实现
隐藏维度选取:根据数据
数据预处理:标准化;选重要数据;去掉过于稀疏的;可构建2、3折交叉