随机森林如何评估特征重要性

2018-10-19 本文已影响61人 0过把火0

序

集成学习模型的一大特点是可以输出特征重要性，特征重要性能够在一定程度上辅助我们对特征进行筛选，从而使得模型的鲁棒性更好。

随机森林中进行特征重要性的评估思想为：
判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。

RF评估特征重要性--基于基尼指数

基尼指数计算方法：k 代表 k 个类别， $p_k$ 代表类别 k的样本权重。

那么特征

RF评估特征重要性--基于袋外数据

对于一棵树 $T_i$ ，用OOB样本可以得到误差 e1，然后随机改变OOB中的第 j 列，保持其他列不变，对第 j 列进行随机的上下置换，得到误差 e2。至此，可以用 e1-e2 来刻画特征 j 的重要性。其依据就是，如果一个特征很重要，那么其变动后会非常影响测试误差，如果测试误差没有怎么改变，则说明特征j不重要。

而该方法中涉及到的对数据进行打乱的方法通常有两种：
1）是使用uniform或者gaussian抽取随机值替换原特征；
2）是通过permutation的方式将原来的所有N个样本的第 i 个特征值重新打乱分布（相当于重新洗牌）。

比较而言，第二种方法更加科学，保证了特征替代值与原特征的分布是近似的（只是重新洗牌而已）。这种方法叫做permutation test（随机排序测试），即在计算第 i 个特征的重要性的时候，将N个样本的第 i 个特征重新洗牌

转载注明：https://www.jianshu.com/p/7a876bb876b9

随机森林如何评估特征重要性

序

RF评估特征重要性--基于基尼指数

RF评估特征重要性--基于袋外数据

猜你喜欢

热点阅读