浅谈AI大语言模型的企业落地(八)- 问答系统评估指标
上一篇我们具体介绍了垂直领域智能问答的具体实现,那么小马的AI应用落地在“大语言模型落地--智能问答系统”下已经暂告一段落了。实现完了自然就到了系统评估指标环节了,由于需求场景差异,指标方案不一定完全适用,本文抛砖引玉,仅供参考。
![](https://img.haomeiwen.com/i1430582/5aeeb9bbf8525667.jpg)
本文将分别从大模型评估指标、问答系统评估指标、自定义评估指标参考等几个方面来简单阐述问答系统的评估指标。
一、 大模型评估指标
我们说了这么久的大模型,好像从来没有提起用大模型自己来回答我们对大模型的疑问。哎,今天你就看到了。其实很多问题都可以通过直接提问大模型来求解。话不多说,那就先来问问它标题这个问题的答案吧。
小马试了些许模型,回答大同小异。以百川2的为例。
问:大模型的评估指标?
答:
大模型的评估指标通常用于衡量模型的性能和准确性。以下是一些常用的评估指标:
1. 准确率(Accuracy):准确率是分类问题中最常用的评估指标,它表示模型预测正确的样本数占总样本数的比例。
2. 精确度(Precision):精确度表示模型预测为正例的样本中实际为正例的比例。
3. 召回率(Recall):召回率表示实际为正例的样本中被模型预测为正例的比例。
4. F1分数(F1 Score):F1分数是精确度和召回率的调和平均值,用于综合评估模型的性能。
5. AUC-ROC曲线(Area Under the Receiver Operating Characteristic Curve):AUC-ROC曲线是一种用于评估分类器性能的图形表示方法,它表示在不同阈值下真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的关系。AUC值越接近1,表示模型性能越好。
6. 均方误差(Mean Squared Error, MSE):MSE是回归问题中常用的评估指标,表示模型预测值与实际值之间的平方差的均值。
7. 平均绝对误差(Mean Absolute Error, MAE):MAE也是回归问题中常用的评估指标,表示模型预测值与实际值之间的绝对差的均值。
8. R-squared(决定系数):R-squared是衡量模型拟合优度的指标,表示模型解释的数据变异占总变异的比例。
这些评估指标可以帮助开发者了解模型的性能,从而进行优化和改进。需要注意的是,不同的任务和场景可能需要关注不同的评估指标。
我们再来看百川2开源仓库官方提供的资料。大模型评估指标框架(内含的评估指标不同侧重点不同):
![](https://img.haomeiwen.com/i1430582/f9dfb179f009044a.png)
如果是模型情感分析或者分类我们可以使用如下矩阵验证精确度、召回率和支持率等。