人工智能/模式识别/机器学习精华专题程序员@IT·互联网

统计学习方法之概论

2017-12-08  本文已影响161人  J_101

1.基础概念

2.统计学习三要素

2.1 模型

2.2 策略

2.3 算法

3.模型评估与模型选择、正则化和交叉验证

训练误差:模型关于训练数据集的平均损失(经验风险)
测试误差:模型关于测试数据集的平均损失(经验风险)

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当模型复杂度过大时,过拟合现象就会发生。
学习时选择的模型所包含的参数过多(复杂度过高),以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象

正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项
正则化项:一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大    
正则化的作用是选择经验风险与模型复杂度同时较小的模型

如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切成三部分,分别为训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于最终对方法的评估
但是由于在许多实际应用中数据是不充分的,为了选择好的模型,可以采用交叉验证方法
  (1)基本思想:重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择
  (2)简单交叉验证:将已给数据随机分为两部分,分别用作训练集和测试集
  (3)S折交叉验证:首先将已给数据随机分为S组;然后利用S-1个子集的数据训练模型,剩余1个子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
  (4)留一交叉验证:S折交叉验证的特殊形式是S=N,其中N是给定数据集的容量

4.分类问题、标注问题、回归问题

TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数。

5.学习小结


作者:Jasonhaven.D
链接:http://www.jianshu.com/u/ed031e432b82
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上一篇下一篇

猜你喜欢

热点阅读