机器学习基础指标

2021-01-17  本文已影响0人  骆旺达

一、评估指标

(1)关于准确率(accuracy)、精度(precision)、查全率(recall)、F1的计算过程:
【举例】一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。

混淆矩阵

所以,准确率、精确率、查全率和F1值计算如下:
1.准确率(Accuracy)。顾名思义,就是所有的预测正确(正类负类)的占总的比重。
Accuracy = \frac {TP+TN}{TP+FP+FN+TN}

  1. 精确率(Precision),查准率。即正确预测为正的占全部预测为正的比例。个人理解:真正正确的占所有预测为正的比例。
    Precision = \frac{TP}{TP+FP}

3.召回率(Recall),查全率。即正确预测为正的占全部实际为正的比例。个人理解:真正正确的占所有实际为正的比例。
Recall = \frac {TP}{TP+FN}

  1. F1值(H-mean值)。F1值为算数平均数除以几何平均数,且越大越好,将Precision和Recall的上述公式带入会发现,当F1值小时,True Positive相对增加,而false相对减少,即Precision和Recall都相对增加,即F1对Precision和Recall都进行了加权。

F_1 = \frac {2RP}{P+R}
推倒过程如下:
\frac{2}{F_1} = \frac{1}{R}+\frac{1}{P}
F_1 = \frac {2RP}{P+R}

**(2)ROC曲线、AUC值 **

1、ROC曲线。接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反映着对同一信号刺激的感受性。下图是ROC曲线例子。

ROC曲线
横坐标:1-Specificity,伪正类率(False positive rate,FPR,FPR=FP/(FP+TN)),预测为正但实际为负的样本占所有负例样本的比例;

纵坐标:Sensitivity,真正类率(True positive rate,TPR,TPR=TP/(TP+FN)),预测为正且实际为正的样本占所有正例样本的比例。

在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

\color{red}{真正的理想情况,TPR应接近1,FPR接近0,即图中的(0,1)点。ROC曲线越靠拢(0,1)点,越偏离45度对角线越好。}

2、AUC曲线:AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

从AUC判断分类器(预测模型)优劣的标准:

\color{red}{一句话来说,AUC值越大的分类器,正确率越高。}

(3)Macro-f1和micro-f1
1)micro-f1
统计各个类标的TP、FP、FN、TN,加和构成新的TP、FP、FN、TN,然后即可计算micro-Precision和micro-Recall,得到micro-F1

micro-f1

2)macro-F1:
统计各个类标的TP、FP、FN、TN,分别计算各自的Precision和Recall,得到各自的F1值,然后取平均值得到macro-F1

粘贴自
(1) 准确率、精确率、召回率、F1值、ROC/AUC整理笔记
(2)macro-F1 和micro-F1
(3)sklearn中 F1-micro 与 F1-macro区别和计算原理

二、隐马尔科夫模型(HMM)的三个基本问题:

基础假设

令 λ = {A,B,π} 为给定HMM的参数, 令 σ = O_1,…,O_T 为观察值序列,

隐马尔可夫模型(HMM)的三个基本问题:

1、评估问题:对于给定模型,求某个观察值序列的概率p(σ|λ) ;即概率计算问题,在给定模型和观测序列的条件下,计算在给定模型下观测序列出现的概率。

2、学习问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的概率p(σ|λ)最大;即参数估计问题,具体是指,用已知的观测序列去估计模型中的参数,使得在给定模型下观测序列出现的概率最大。

3、解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;即已知模型和观测序列,在给定的观测序列下,求其最可能对应的状态序列。

解决算法:

(1)向前、向后算法:前向、后向算法用于解决评估问题,也就是说,在给定模型下,求某观测序列出现的概率,用于评估该观测序列最匹配的模型。
(2)极大似然估计方法:学习问题
(2)维特比算法:用于解决的是给定一个模型和某个特定的输出序列下,求最可能产生这个特定的输出序列对应的状态序列。

上一篇下一篇

猜你喜欢

热点阅读