简书书写数学公式

2021-08-12 本文已影响0人 taobao

决策树

熵：

$H(D)=-\sum _{i=1}^n p(x_i)log_2p(x_i)$

条件熵：

$H(D|A)=\sum _{i=1}^np_iH(D|A=x_i)$

信息增益：

$G(D, A)=H(D) - H(D|A)$

信息增益比:

$I(D,A)=\frac{G(D,A)}{H(D)}$

CHAT算法基尼系数：

$Gini(p)=\sum_{n=1}^np_n(1-p_n)=1-\sum_{n=1}^np_k^2$

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点跟熵相似，选择最小的作为最优特征。
$D = D1+D2$

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

贝叶斯

条件概率：

$P(A \cap B)=P(B|A)P(A)=P(A|B)P(B)$
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

S = 1000
P(A) 种疾病在人群中的发病率概率：0.001
P(B|A) 实际得病检测出得病的准确概率：0.99
检测误报率为0.05，即，无病检测得病概率：0.05
P(B) 检测得病概率：0.0010.99+0.05(1-0.001)
P(A|B) 检测得病，实际发病概率：P(A)*P(B|A)/P(B) 大约为：0.019

全概率公式：

$A=A_1+A_2+...+A_n$

$P(A|B)=\frac{P(B|A)P(A)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+..+P(B|A_n)P(A_n)}$