特征离散化

2018-10-26  本文已影响0人  Phoebe_Liu

详情可看https://wenku.baidu.com/view/9e45b337011ca300a6c390d2.html

总结:

  1. 卡方检验、信息增益,都是数值越大,代表特征对于分类越明显,越好。
    1. 离散化时: 计算各个分裂点的卡方值,选取值最大的,代表分类效果最好。所以需要选取卡方值最大的,作为分裂点
    2. 特征选择是:也是选取卡方值最大的
    3. 自由度F = (行数 - 1) * (列数 - 1) = 1,对于四格表,F = 1。
      由于自由度F = 1,所以只需要看分布表的第一行。可以看到,随着卡方值的增大,原假设(假设独立)成立的概率就越小。因为10.10 > 6.64,所以原假设成立是概率是小于1%。反之,也就是说,原假设不成立(即两个分类变量不是独立无关)的概率大于99%。


      卡方.png
上一篇下一篇

猜你喜欢

热点阅读