比较分类器的方法

2020-03-09  本文已影响0人  从此不迷茫

考虑一对分类模型Ma和Mb。假设Ma在包含30个记录的检验集上的准确率达到85%,而Mb在包含5000个记录的不同检验集上达到75%的准确率。根据这些信息,Ma比Mb好码?

(1)Ma的置信程度有多高?

(2)可以把准确率的差解释成检验集的复合的变差码?

1.估计准确率的置信区间

为确定置信区间,需要建立支配准确率度量的概率分布。通过将分类任务用二项式实验建模来推导置信区间。二项式实验的特性如下:

(1实验由N个独立的试验组成,其中每个试验有两种可的结果:成功与失败

(2每个试验成功的概率p是常数。

二项式实验的一个例子是统计N次抛硬币正面朝上的次数。如果X是N次实验观察的成功次数,则X取一个特定值v的概率由均值Np、方差为Np(1-p)的二项分布给出:

例如,抛一枚硬币,50次中20次正面朝上的概率是P(X=20)=0.0419

预测检验记录类标号的任务也可以看作是二项式实验。给定一个包含N个记录的检验集,令X是被模型正确预测的记录数,p是模型真正准确率。通过把预测任务用二项式实验建模,X服从均值为Np,方差为Np(1-p)的二项分布。可以证明经验准确率acc=X/N也是均值为p,方差为Np(1-p)/N的二项分布。尽管可以用二项分布来估计acc的置信区间,但是当N充分大时,通常用正态分布来近似。根据正态分布,可以推导出acc的置信区间为

其中Z_{\alpha /2} Z_{1-\alpha /2} 分别是在置信水平(1-\alpha )下由标准正态分布得到的上界和下界。

因为标准正态分布关于Z=0对称,于是我们有Z_{\alpha /2} =Z_{1-\alpha /2} 。重新整理不等式,得到p的置信区间如下:

公式(4-13)

考虑一个模型,它在100个检验记录上具有80%的准确率。在95%的置信水平下,模型的真实准确率的置信区间是什么?95%的置信水平对应于Z_{\alpha /2} =1.96。将它代入公式(4-13)得到置信区间在71.1%和86.7%之间。下表给出了随着记录数N的增大所产生的置信区间

随着N的增大,置信区间变得更加紧凑

2.比较两个模型的性能

考虑一对模型M1和M2,它们在两个独立的检验集D1和D2上进行评估,令n1是D1中的记录数,n2是D2中的记录数。另外,假设M1在D1上的错误率为e1,M2在D2上的错误率为e2,目标是检验e1与e2的观察差是否是统计显著的。假设n1和n2都充分大,e1和e2可以使用正态分布来近似。如果用d=e1-e2表示错误率的观测差,则d服从均值为dt(其实际差)、方差为\sigma _{d}^2 的正态分布。d的方差为:

其中e1(1-e1)/n1和e2(1-e2)/n2是差错率的方差。(差错率即错误率)

最后在置信水平(1-α)%下,可以证明实际差dt的置信区间由下式给出:

(4-15)

考虑开始所描述的问题。模型Ma在N1=30个检验记录上的错误率e2=0.15,而Mb在N2=5000个检验记录上的错误率e2=0.25。错误率的观察差d=|0.15-0.25|=0.1.在这个例子中,我们使用双侧检验来检查dt=0还是dt≠0。错误率观察差的估计方差计算如下:

把该值代入公式(4-15),我们得到在95%的置信水平下,d置信区间如下: 由于该区间跨越了值0,我们可以断言在95%的置信水平下,该观察差不是统计显著的。

3.比较两种分类法的性能

假设我们想用k折交叉验证的方法比较两种分类法的性能。首先,把数据集D划分为k个大小相等部分,然后,使用每种分类法,在k-1份数据上构建模型,并在剩余的划分上进行检验,这个步骤重复k次,每次使用不同的划分进行检验。

令Mij表示分类技术Li在第j次送代产生的模型,注意,每对模型M1j和M2j在相同的划分j上进行检验。用e1j和e2j分别表示它们的错误率,它们在第j折上的错误率之差可以记作d=e1j-e2j。如果k充分大,则d服从于均值为d_{t}^(cv) (错误率的真实差)、方差为\sigma ^(cv) 的正态分布。与前面的方法不同,观察的差的总方差用下式进行估计:

其中,\bar{d} 是平均差。对于这个方法,我们需要用t分布计算d_{t}^(cv) 的置信区间: 系数t_{(1-\alpha),k-1 } 可以通过两个参数(置信水平(1-α)和自由度(k-1)查概率表得到。
上一篇 下一篇

猜你喜欢

热点阅读