data mining-评估学习结果

2018-09-24 本文已影响0人 crishawy

评估是数据挖掘能否取得真正进展的关键一环。

训练和测试

对于分类问题，自然采用误差率来衡量一个分类器的性能，为了能预测一个分类器在新数据上的性能表现，需要一组没有参与训练的单独数据，并在次数据集上评估分类器的误差率，这组数据集叫做测试集。
注：测试数据不能以任何方式参与分类器的构建

预测性能-置信区间

对于一个抛硬币问题，抛100次正面有75次和抛1000次正面有750次，如何衡量正确率p。这个问题答案通常被表达为一个置信区间，即真实正确率p以某个特定的置信度存在于某个特定的区间中。如在置信度为80%左右，抛100次的正确率正在69.1%和80.1%之间，抛1000次正确率在73.2%和76.7%之间，由此课件抛1000次更有效。
对于置信区间的具体计算方法见概率论

交叉验证（重要）

现考虑当训练和测试数据数量有限时该如何处理。采用旁置法可解决一部分问题（旁置的数据用来测试，其他用于训练），但旁置的数据具有随机性，有时并不显著，所以普遍使用
重复旁置法：每次迭代时，随机抽取一个特定比例的数据进行训练，剩余的用于测试，将每次不同迭代过程中所得的误差率求平均得到综合误差率。
此外，旁置所选数据有时显著性不大，所以采用分层旁置，即将数据分层化，每次旁置从不同层次抽取一定量数据，可以提高数据间的显著性差异。结合上述两个方法可以得到分层交叉验证方法
交叉验证：首先要决定一个固定的折数，这是决定数据分的份数，如3折即将数据分成3等分，每一等分重复作为测试集，其他作为训练集，最后计算综合误差率。
10折分层交叉验证：这是普遍所采用的误差估计方法。

data mining-评估学习结果

训练和测试

预测性能-置信区间

交叉验证（重要）

猜你喜欢

热点阅读