模型评估与模型选择

2018-10-27 本文已影响2人云之彼端09

thinking： 统计学习，我们建立模型的目的是为了对未知事情的预测，
然而这个本身就是对未知事情的预测，我们怎么去评判这个模型（学习方法）
的好坏呢，反过来想，如果做一件事情做的好，我们可以通过失误率来判断
做事情的好坏，还可以通过考试成绩的高低来作为判断的依据。
那么对于学习方法（模型）的评估就有了训练误差和测试误差两个标准，
当然误差越低就说明越好

训练误差是模型Y=f(x)关于训练数据集的平均损失

测试误差是模型Y=f(x)关于测试数据集的平均损失

损失函数为 0-1 函数的时候，测试误差就成了误差率

I为指示函数不相等的时候为1 否则为0 测试数据集的准确率为

测试误差小的方法具有更好的预测能力

过拟合与模型选择

注意：如果一味的追求提高数据的预测能力，选择的模型就会比真的模型复杂。
这种现象称为过拟合，过拟合也就是模型的参数过多，
这样会出现对已知数据的预测很好，对未知数据的预测很差。

一个例子说明参数个数（模型复杂度）和预测误差的关系
10个数据点，用0～9次多项式函数对数据进行拟合

数据集
假定数据由M次多项式生成，选择最有可能产生这样数据的多项式

多项式的系数也就是模型的复杂度经验最小化策略，求解参数，即多项式系数

对wj求偏导求的拟合多项式系数

M=0,M=1,M=3,M=9的拟合图形

结论：M=1 多项式曲线是一条直线，数据拟合效果很差，M=9，多项式曲线通过每一个数据点，训练误差为0

训练误差和测试误差与模型复杂度的关系

测试误差和训练误差跟模型复杂度的关系
为了使预测模式更好就要选择 测试误差最小的模型
那么怎么选择测试误差模型最小呢
常用的模型选择方法：
        正则化和交叉验证

模型评估与模型选择

过拟合与模型选择

训练误差和测试误差与模型复杂度的关系

猜你喜欢

热点阅读