特征选择前言

2019-12-24 本文已影响0人 echolvan

我们假设数据中没有冗余数据，并且包含了所有的重要信息。

首先第一个问题，如果我们没有业务知识，不知道特征的关键性，怎么选择？

这样在领域知识之内没有先验假设我们只能遍历所有可能的子集了。但是这只是理论可行，特征多，会遇到组合爆炸的，太多子集了，根本就算不出来。

产生一个候选的子集评价它的好坏基于评价结果产生下一个候选子集

获取下一个候选特征子集
评价候选特征子集的好坏

搜索方式

1. 前向搜索

image.png
2. 后向搜索
从全特征集一个个的剔除特征，和前向是反的。
3. 双向搜索
前后搜索结合进行
but！！这些都是策略都是贪婪的，因为它们仅仅考虑的是本轮的选定集最优。比如杂物i第三轮时a5优于a6那么选定集和{a2,a4,a5}然而可能第四轮的最优集和{a2,a4,a5,a7}不如{a2,a4,a6,a9},但是很遗憾，上述方法都无法做到，除非使用穷举法

评价候选子集

信息熵。

SUMARRY

上述的搜索方式：将前向搜索与信息熵相结合，这和决策树算法非常相似。而事实上决策树是可以用来特征选择的。

常见特征选择的方法：

filter过滤法
wrapper包装法
embedded嵌入法
详细看另外一篇文章。
--- 来自读西瓜书的理解 ---