机器学习—信息增益

2019-01-20  本文已影响0人  hwang_zhic

举例说明:如果有8位同学,男生3位,女生5位。 如果用头发,和声音判断男女,那么头发长判断完,在判断声音细好呢?还是用声音细先判断,在用头发长判断好呢?这个头发,声音就是“熵”,那么两种判断方法就是两种“信息增益”,需要计算它,比较哪个信息增益的值更大,意味着用这个属性来进行划分所获得的“纯度提升”越大,方知哪种更好。

首先计算未分类前的熵 :熵(总)=-3/8*log2(3/8)-5/8*log2(5/8)=0.9544 

先按A头发分类,分类后的结果为:长头发中有1男3女。短头发中有2男2女。

熵(A长发)=-1/4*log2(1/4)-3/4*log2(3/4)=0.8113

熵(A短发)=-2/4*log2(2/4)-2/4*log2(2/4)=1

熵(A)=4/8*0.8113+4/8*1=0.9057

信息增益(同学A)=熵(总)-熵(A)=0.9544-0.9057=0.0487

再按B声音特征来分,分类后的结果为:声音粗中有3男3女。声音细中有0男2女。

熵(B声音粗)=-3/6*log2(3/6)-3/6*log2(3/6)=1

熵(B声音粗)=-2/2*log2(2/2)=0

熵(B)=6/8*1+2/8*0=0.75

信息增益(B)=熵(总)-熵(A)=0.9544-0.75=0.2087

按B的方法,先按声音特征分类,信息增益更大,区分样本的能力更强,更具有代表性。

作者:andyham

链接:https://www.jianshu.com/p/3f3caebb7e7a

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

上一篇 下一篇

猜你喜欢

热点阅读