降维与特征选择
第七章 降维与特征选择
[TOC]
1. 特征抽取和特征选择的区别
特征抽取:在已有的特征上,采用特征变换的方法,生成新的特征集合。
特征选择:使用某些方法,从特征中选择出特征子集。
2.特征选择
2.1 方法
先从特征中选择特征子集->评价特征子集->是否停止
-c500两个问题:
1. 特征子集如何生成
2. 如何评价
2.2 特征子集生成
2.2.1 穷举法
事先确定要选出特征的个数d,$C_D^d$穷举出所有可能组合作评价,选择最优特征子集。适用于特征集较小的情况
2.2.2 单独枚举
评估所有的单个特征,选出最优的特征。这种方法没有考虑到特征之间的不独立性。
2.2.3 SFS 前向序列
每次加入一个特征,然后进行评估,选择出最优特征集合。
那么对于选出d个特征,需要进行$C_D^d$次计算,与穷举相同
2.2.4 GSFS广义SFS
每次加入一组k个特征进行评估,选择出最优组合,计算量事实上要比SFS大
2.2.5 SBS 反向序列
每次去除一个特征,使得特征组合最优
2.2.6 GSBS 广义反向序列
每次去除一组k个特征,使得特征组合最优。
2.2.7 特征子集生成
相当于GSBS和GSFS的组合,加入L个,减去R个。
2.2.8 广义特征子集生成
分部进行,分d步增加特征,每一步都做评估,相同的,e步去除特征,每一步都做评估。
2.3 特征评价准则
分三种框架:Filter、wrapper、embedding方法。
2.3.1 三种特征评测方法
1. Filter
不依赖于分类器,只是用数据来确定分类好坏。这里的数据要求是带标签数据,不然需要依赖分类器。就会退化为第二个warpper方法。
评价准则:距离准则、概率可分、熵可分准则。
-c400[图片上传失败...(image-d9f968-1516029506505)]
根据w的变化来确定是否选择特征
2. wrapper
选择特征后,通过分类器分类来进行评估
LVM方法:随机产生一个特征子集,计算错误率,若错误率小于之前选好的特征集合的最小错误率,则合并到选好的特征集中。
-c3003. embedding方法
特征选择过程在学习算法中完成,目标是完成学习过程。
2.3.2 可分性度量方法
在选择的特征下面,使用类内类间距离准则、概率可分、熵可分准则。计算分离程度或好坏
1. 距离准则
-c5002. 概率准则
度量各个类别概率分布的重合程度。
-c400 -c400 -c400 -c400 -c4003. 熵度量准则:一种基于互信息的判断方法,互信息是指两个随机变量之间的关联程度
-c5003.特征抽取
线性变换:PCA、LDA
非线性变化:KPCA,KFDA,流行学习,NMF
3.1 方法概述
使用矩阵的近似表示.
[图片上传失败...(image-9e01a2-1516029506505)]
所以,目标是MSE。无正交要求
[图片上传失败...(image-215316-1516029506505)]
使用降维技术,生成新的特征表示
[图片上传失败...(image-593fab-1516029506505)]
左边的L表示样例的表示,中间X表示样例,右边的W表示新的特征空间
其实质是求一个w,使得样本映射到w上,使得各个特征长度变化最小。
-c500其中,$l_iW^T$表示。。。。有问题
3.2 公式推导
-c500中间等价成$l2$的时候,是因为$w{-1} = w^T$,
-c500