简书书写数学公式

2021-08-12  本文已影响0人  taobao

决策树

熵:

H(D)=-\sum _{i=1}^n p(x_i)log_2p(x_i)

条件熵:

H(D|A)=\sum _{i=1}^np_iH(D|A=x_i)

信息增益:

G(D, A)=H(D) - H(D|A)

信息增益比:

I(D,A)=\frac{G(D,A)}{H(D)}

CHAT算法基尼系数:

Gini(p)=\sum_{n=1}^np_n(1-p_n)=1-\sum_{n=1}^np_k^2

基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大,样本集合的不确定性也就越大,这一点跟熵相似,选择最小的作为最优特征。
D = D1+D2

Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)

贝叶斯

条件概率:

P(A \cap B)=P(B|A)P(A)=P(A|B)P(B)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}

S = 1000
P(A) 种疾病在人群中的发病率概率:0.001
P(B|A) 实际得病检测出得病的准确概率:0.99
检测误报率为0.05,即,无病检测得病概率:0.05
P(B) 检测得病概率:0.0010.99+0.05(1-0.001)
P(A|B) 检测得病,实际发病概率:P(A)*P(B|A)/P(B) 大约为:0.019

全概率公式:

A=A_1+A_2+...+A_n

P(A|B)=\frac{P(B|A)P(A)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+..+P(B|A_n)P(A_n)}

上一篇下一篇

猜你喜欢

热点阅读