风控

模型评估与模型选择

2018-10-27  本文已影响2人  云之彼端09
thinking: 统计学习,我们建立模型的目的是为了对未知事情的预测,
然而这个本身就是对未知事情的预测,我们怎么去评判这个模型(学习方法)
的好坏呢,反过来想,如果做一件事情做的好,我们可以通过失误率来判断
做事情的好坏,还可以通过考试成绩的高低来作为判断的依据。
那么对于学习方法(模型)的评估就有了训练误差和测试误差两个标准,
当然误差越低就说明越好

训练误差是模型Y=f(x)关于训练数据集的平均损失


测试误差是模型Y=f(x)关于测试数据集的平均损失


损失函数为 0-1 函数的时候,测试误差就成了误差率


I为指示函数 不相等的时候为1 否则为0 测试数据集的准确率为


测试误差小的方法具有更好的预测能力

过拟合与模型选择

注意:如果一味的追求提高数据的预测能力,选择的模型就会比真的模型复杂。
这种现象称为过拟合,过拟合也就是模型的参数过多,
这样会出现对已知数据的预测很好,对未知数据的预测很差。

一个例子说明 参数个数(模型复杂度) 和 预测误差的关系
10个数据点,用0~9次多项式函数对数据进行拟合

数据集
假定数据由M次多项式生成,选择最有可能产生这样数据的多项式



多项式的系数也就是模型的复杂度 经验最小化策略,求解参数,即多项式系数



对wj求偏导 求的拟合多项式系数


M=0,M=1,M=3,M=9的拟合图形


结论:M=1 多项式曲线是一条直线,数据拟合效果很差,M=9,多项式曲线通过每一个数据点,训练误差为0

训练误差和测试误差与模型复杂度的关系
测试误差和训练误差跟模型复杂度的关系
为了使预测模式更好就要选择 测试误差最小的模型
那么怎么选择测试误差模型最小呢
常用的模型选择方法:
        正则化和交叉验证
上一篇下一篇

猜你喜欢

热点阅读