机器学习泛化能力评测指标
模型对未知数据的预测能力称为模型的泛化能力,它是模型最重要的性质。
只有选择与问题相匹配的评估方法,才能快速地发现模型选择或训练过程中出现的问题,迭代地对模型进行优化。模分类问题、回归问题、序列预测和翻译问题往往需要使用不同的指标进行评估。
分类问题(二分类为例):
混淆矩阵
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数
False Negative(假负,FN):将正类预测为负类数
精确率(Precision):分类正确的正样本个数占分类器预测为正样本的样本个数的比例:
召回率(Recall):分类正确的正样本个数占实际的正样本个数的比例:
Precision值和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在更有把握时才把样本预测为正样本,但此时往往会因为过于保 守而漏掉很多没有把握的正样本,导致Recall值降低。
F值:是精确率和召回率的调和平均数,综合反应模型分类的性能:
准确率: 准确率是指分类正确的样本占总样本个数的比例,即:
准确率的缺陷:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。可以使用,每个类别下的样本准确率的算术平均作为模型评估的指标。
错误率:错误率是指分类错误的样本占总样本个数的比例,即:
宏准确率:macro-P 宏召回率:macro-R:多个二分类混淆矩阵,比如进行多次训练测试,或者是多个数据集上进行测试,求把每次的P,R的平均值
微准确率:micro-P 微召回率:micro-R :将各混淆矩阵的对应元素进行平均,TP,FP,TN,FN的平均值,用这些平均值求得召回率和准确率
ROC曲线:受试者工作特征(receiver operating characteristic)
横轴:假正例率:预测错误的正样本个数(负例预测为正例)占实际的负样本个数的比例
纵轴:真正例率:预测正确的正样本个数(正例预测为正例)占实际的正样本个数的比例
图中对角线对应随机猜测模型,点(0,1)对应将所有正例排在所有反例之前的理想模型:
![](https://img.haomeiwen.com/i25693627/5ccbdf631d3ce26d.png)
进行学习器比较时,若一个学习器的ROC曲线被另一个学习器的曲线完全包住,则可以断定后者的性能优于前者,若两个学习器的ROC曲线发生交叉,则无法判断;此时可以判断ROC曲线下的面积:AUC(Area Under ROC Curve)
![](https://img.haomeiwen.com/i25693627/d4b74a39b01ee35c.png)
回归问题:
与分类问题不同,回归问题解决的是对具体数值的预测,比如房价的预测,销量的预测等都是回归问题,这些问题需要预测的不是一个事先定义好的类别,而是一个任意的实数。解决回归问题的神经网络一般只有一个输出节点,这个节点的输出值就是它的预测值;回归问题最常用的性能度量是均方误差:
1. RMSE:RMSE经常被用来衡量回归模型的好坏,RMSE的计算公式为:
RMSE能够很好地反映回归模型预测值与真实值的偏离程度。
缺点:但在实际问题中,如果存在个别偏离程度非常大的离群点(Outlier)时,即使离群点 数量非常少,也会让RMSE指标变得很差。
2. MAPE:引入别的评价指标,MAPE,平均绝对百分比误差:
相比RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。
翻译问题:
BLEU:
这种方法认为如果翻译系统越接近人工翻译结果,那么它的翻译质量就越高,评测关键就在于如何定义系统译文与参考译文之间的相似度。BLEU采用的方式是比较并统计共现的n元词的个数,即统计同时出现在系统译文和参考译文中的n元词的个数,最后把匹配到的n元词的数目除以系统译文的单词数目,得到评测结果。
ROUGH:
ROUGH算法基本思路和BLEU差不多,不过它统计的是召回率,也就是对于标准译文中的短语,统计一下它们有多少个出现在机器翻译的译文当中,其实就是看机器翻译有多少个翻译对了,这个评价指标主要在于标准译文中的短语都出现过,那么自然机器翻译的译文越长结果越好。
METOR:
翻译模型翻译的结果是对的,只是碰巧跟参考译文没对上(比如用了一个同义词),于是用WordNet等知识源扩充了一下同义词集,同时考虑了单词的词形,最后还有召回率和准确率两者都要考虑,用F值作为最后的评价指标。
CIDEr
CIDEr是BLEU和向量空间模型的结合。它把每个句子看成文档,然后计算TF-IDF向量(只不过term是n-gram而不是单词)的余弦夹角,据此得到候选句子和参考句子的相似度,同样是不同长度的n-gram相似度取平均得到最终结果。