模型评估方法

2020-03-04 本文已影响0人 Andrew_jidw

模型评估方法有：

留出法：需要划分训练集和测试集，常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试。

交叉验证法：又称k折交叉验证，其实就是将数据集划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从数据集中通过分层采样得到。然后每次用k-1个子集的并集作为训练集，剩下的作为测试集。最终返回的是这k个测试结果的均值。k一般取值为10或者5,20.与留出法相似，将数据集划分k个子集同样存在多种划分方式，为了减小样本划分不同而引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终评估结果是这p次k折交叉验证结果的均值（个人理解：也就是k个值的均值一共有p个，再求这p个均值的均值得到最终结果）。常见的有10次10折交叉验证。

自助法：就是有放回抽样，将抽出来的样本作为训练集，再将其训练集的补集作为测试集。从理论上来说，样本在经过m次采样之后始终不被采到的概率为 $(1-\frac{1}{m} )^m$ ,取极限得到1/e,即约为0.368,这种测试结果也称为包外估计。自助法对数据集较小比较有效，但是其产生的数据改变了初始数据集的分布，这会导致引入估计偏差，因此数据量足够时优先考虑上述两种方法。

模型评估方法

猜你喜欢

热点阅读