降维与特征选择

2018-01-15  本文已影响0人  HelloShane

第七章 降维与特征选择

[TOC]

1. 特征抽取和特征选择的区别

特征抽取:在已有的特征上,采用特征变换的方法,生成新的特征集合。

特征选择:使用某些方法,从特征中选择出特征子集。

2.特征选择

2.1 方法

先从特征中选择特征子集->评价特征子集->是否停止

-c500

两个问题:

1. 特征子集如何生成

2. 如何评价

2.2 特征子集生成

2.2.1 穷举法

事先确定要选出特征的个数d,$C_D^d$穷举出所有可能组合作评价,选择最优特征子集。适用于特征集较小的情况

2.2.2 单独枚举

评估所有的单个特征,选出最优的特征。这种方法没有考虑到特征之间的不独立性。

2.2.3 SFS 前向序列

每次加入一个特征,然后进行评估,选择出最优特征集合。

那么对于选出d个特征,需要进行$C_D^d$次计算,与穷举相同

2.2.4 GSFS广义SFS

每次加入一组k个特征进行评估,选择出最优组合,计算量事实上要比SFS大

2.2.5 SBS 反向序列

每次去除一个特征,使得特征组合最优

2.2.6 GSBS 广义反向序列

每次去除一组k个特征,使得特征组合最优。

2.2.7 特征子集生成

相当于GSBS和GSFS的组合,加入L个,减去R个。

2.2.8 广义特征子集生成

分部进行,分d步增加特征,每一步都做评估,相同的,e步去除特征,每一步都做评估。

2.3 特征评价准则

分三种框架:Filter、wrapper、embedding方法。

2.3.1 三种特征评测方法

1. Filter

不依赖于分类器,只是用数据来确定分类好坏。这里的数据要求是带标签数据,不然需要依赖分类器。就会退化为第二个warpper方法。

评价准则:距离准则、概率可分、熵可分准则。

-c400

[图片上传失败...(image-d9f968-1516029506505)]

根据w的变化来确定是否选择特征

2. wrapper

选择特征后,通过分类器分类来进行评估

LVM方法:随机产生一个特征子集,计算错误率,若错误率小于之前选好的特征集合的最小错误率,则合并到选好的特征集中。

-c300

3. embedding方法

特征选择过程在学习算法中完成,目标是完成学习过程。

2.3.2 可分性度量方法

在选择的特征下面,使用类内类间距离准则、概率可分、熵可分准则。计算分离程度或好坏

1. 距离准则

-c500

2. 概率准则

度量各个类别概率分布的重合程度。

-c400 -c400 -c400 -c400 -c400

3. 熵度量准则:一种基于互信息的判断方法,互信息是指两个随机变量之间的关联程度

-c500

3.特征抽取

线性变换:PCA、LDA

非线性变化:KPCA,KFDA,流行学习,NMF

3.1 方法概述

使用矩阵的近似表示.

[图片上传失败...(image-9e01a2-1516029506505)]

所以,目标是MSE。无正交要求

[图片上传失败...(image-215316-1516029506505)]

使用降维技术,生成新的特征表示

[图片上传失败...(image-593fab-1516029506505)]

左边的L表示样例的表示,中间X表示样例,右边的W表示新的特征空间

其实质是求一个w,使得样本映射到w上,使得各个特征长度变化最小。

-c500

其中,$l_iW^T$表示。。。。有问题

3.2 公式推导

-c500

中间等价成$l2$的时候,是因为$w{-1} = w^T$,

-c500

3.3 标准化样本

-c500

3.4 算法流程

-c500 -c500
上一篇下一篇

猜你喜欢

热点阅读