特征离散化
2018-10-26 本文已影响0人
Phoebe_Liu
详情可看https://wenku.baidu.com/view/9e45b337011ca300a6c390d2.html
总结:
- 卡方检验、信息增益,都是数值越大,代表特征对于分类越明显,越好。
- 离散化时: 计算各个分裂点的卡方值,选取值最大的,代表分类效果最好。所以需要选取卡方值最大的,作为分裂点
- 特征选择是:也是选取卡方值最大的
-
自由度F = (行数 - 1) * (列数 - 1) = 1,对于四格表,F = 1。
由于自由度F = 1,所以只需要看分布表的第一行。可以看到,随着卡方值的增大,原假设(假设独立)成立的概率就越小。因为10.10 > 6.64,所以原假设成立是概率是小于1%。反之,也就是说,原假设不成立(即两个分类变量不是独立无关)的概率大于99%。
卡方.png