Excel-分类算法-决策树
2018-06-17 本文已影响0人
夏日春风
1--理论






总结:“信息数据”越集中的地方熵值越小, “信息数据”越分散的地方熵值越大。
2--实操
1.1--信息熵的公式

1.2--计算出总的熵值
熵=-是的概率*LOG(是的概率,2)-否的概率*LOG(否的概率,2)

1.3--计算出天气维度的增益

PS:0不能参加log的计算

1.4--计算出每个维度的信息增益

1.5--排列每个信息维度


1.6--通过信息增益比例来算出每个维度的影响度
