信息熵与决策树
条件熵

image

image.png
联合熵

image
链式法则

image
疑问: 为什么ΣΣp(x,y) = Σp(x) 或者 Σp(y)
打个比方: 一个抽卡牌游戏,共有10张,分别是1,2,3,4,5。设x为第一次,y为第二次,抽到x=1的概率是抽到
(x,y) = (1,1),(1,2),(1,3),(1,4),(1,5)的概率总和
决策树
决策树就是以信息熵和特征为基础,以信息熵的下降为目的对样本向下划分。
主要的决策树方法有: ID3,C4.5 和 CART
*ID3: 主要用信息增益法, 信息增益 = 原有信息的信息熵(较无序,数值比较大)- 基于特征分类后的信息熵(较有序,数值比较小),对所有的特征进行信息增益的计算,然后选择信息增熵增益最大的特征来向下分类。
*C4.5:使用的信息增益率, 信息增益率 = 信息增益/原有信息的信息熵
*CART:使用基尼系数,并且只建立二叉树结构
剪枝操作:Loss(T)= C(T)+a(T),其中T是模型复杂度,C(T)是误差,a是一个比率。 为防止过拟合,当模型复杂度高的时候,系统误差越小,平衡了Loss function.
上一篇
下一篇