评价者之间的一致性-Kappas Inter-rater agr
评价者之间的一致性--Kappas Inter-rater agreement Kappas
inter-rater reliability == inter-rater agreement == concordance
评价者之间的一致性的Kappa分数代表着在打分判断中,他们有多少共识,有多一致。
Kappa分数处于0-1之间,具体地:
K | Interpretation |
---|---|
<0 | Poor agreement 不一致 |
0.0-0.20 | Slight agreement |
0.21-0.40 | Fair agreement |
0.41-0.60 | Moderate agreement |
0.61-0.80 | Substantial agreement |
0.81-1.0 | Almost perfect agreement |
Cohen's Kappa
Cohen's Kappa 计算了评分者之间的一致性。当评分者对同一项任务给出了相同的判断或分数,那么他们的一致性得到了体现。
Cohen’s Kappa 只能在以下的条件下使用:
- 两个评价者分别对每个样本进行评分
- 一个评价者对每个样本进行两次评分
Cohen's Kappa 计算
要注意的是,一般情况下,Cohen's Kappa 的计算背景是:有两个评分者对每个样本进行二分类
postive (rater A) | negative (rater A) | Total | |
---|---|---|---|
postive (rater B) | |||
negative (rater B) | |||
Total |
计算公式为:
其中, 代表评价者之间的相对观察一致性(the relative observed agreement among raters)
代表偶然一致性的假设概率(the hypothetical probability of chance agreemnet)
例子
rater A和rater B对50张图片进行分类,正类和负类。结果为:
- 20张图片两个评价者都认为是正类
- 15张图片两个评价者都认为是负类
- rater A认为25张图片是正类,25张图片是负类
- rater B 认为30张图片是正类,20张图片是负类
postive (rater A) | negative (rater A) | Total | |
---|---|---|---|
postive (rater B) | 20 | 10 | 30 |
negative (rater B) | 5 | 15 | 20 |
Total | 25 | 25 | 50 |
Step1 :计算
Step2 :计算
Step3 :计算
代表fair agreement
Fleiss's Kappa
Fleiss's Kappa 是对 Cohen‘s Kappa 的扩展:
- 衡量三个或更多评分者的一致性
- 不同的评价者可以对不同的项目进行评分,而不用像Cohen’s 两个评价者需要对相同的项目进行评分
- Cohen's Kappa 的评价者是精心选择和固定的,而Fleiss's Kappa 的评价者是从较大的人群中随机选择的
举一个例子对 Fleiss's Kappa 的计算进行说明:14个评价者对10个项目进行1-5的评分,
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1.000 |
2 | 0 | 2 | 6 | 4 | 2 | 0.253 |
3 | 0 | 0 | 3 | 5 | 6 | 0.308 |
4 | 0 | 3 | 9 | 2 | 0 | 0.440 |
5 | 2 | 2 | 8 | 1 | 1 | 0.330 |
6 | 7 | 7 | 0 | 0 | 0 | 0.462 |
7 | 3 | 2 | 6 | 3 | 0 | 0.242 |
8 | 2 | 5 | 3 | 2 | 2 | 0.176 |
9 | 6 | 5 | 2 | 1 | 0 | 0.286 |
10 | 0 | 2 | 2 | 3 | 7 | 0.286 |
Total | 20 | 28 | 39 | 21 | 32 | 140 |
0.143 | 0.200 | 0.279 | 0.150 | 0.229 |
Step1 :计算 ,以为例,评价者随机打1分的概率
Step2 :计算 ,以为例,14个评价者对第2个任务达成共识的程度
Step3 :计算
代表fair agreement
[1] Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33(1):159–74
[2] http://www.pmean.com/definitions/kappa.htm
[3] https://www.statisticshowto.datasciencecentral.com/cohens-kappa-statistic/
[4] https://www.statisticshowto.datasciencecentral.com/fleiss-kappa/
[5] [https://github.com/amirziai/learning/blob/master/statistics/Inter-rater%20agreement%20kappas.ipynb](https://github.com/amirziai/learning/blob/master/statistics/Inter-rater agreement kappas.ipynb)
[6] https://blog.csdn.net/qq_31113079/article/details/76216611