Day3 第一章 统计学习及监督学习概论(2)
4 模型评估与模型选择
4.1 训练误差与测试误差
假设学习到的模型是 ,训练误差是模型 关于训练数据集的平均损失:其中 是训练样本容量。
测试误差是模型 关于测试数据集的平均损失:其中 是测试样本容量。
4.2 过拟合与模型选择
当假设空间含有不同复杂度的模型时,就要面临模型的选择问题。所选模型要与“真”模型的参数相同,所选模型的参数向量要与真模型的参数向量相近。如果一味的追求提高对训练集的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合。过拟合指得是学习时选择的模型参数过多,以至出现这一模型对已知数据预测得很好,但是对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合名提高模型的预测能力。
下面介绍两种常用的模型选择方法:正则化与交叉验证。
5 正则化与交叉验证
5.1 正则化
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项越大。比如,正则化项可以是模型参数向量的范数。
正则化一般具有如下形式:其中,第一项是经验风险,第二项是正则化项, 为调整二者之间关系的系数。
正则化符合奥卡姆剃刀 (Occam's razor) 原理。奥卡姆剃刀原理应用于模型选择变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
5.2 交叉验证
交叉验证的基本思想是重复地使用;把给定数据进行切分,将切分地数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
1. 简单交叉验证
简单交叉验证的方法是:首先随机地将已给数据分成两部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
2. 折交叉验证
折交叉验证 (S-fold cross vlidation) 是应用最多的交叉验证方法,方法如下:首先随机地将已给数据切分成 个互不相交、大小相同的自己;然后利用 个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的 种选择重复进行;最后选出 次测评种平均测试误差最小的模型。
3. 留一交叉验证
折交叉验证的特殊情况是 ,称为留一交叉验证 (leave-one-out cross vlidation),往往在数据缺乏的时候使用。
6 泛化能力
6.1 泛化误差
学习方法的泛化能力 (generalization ability) 是指由该方法学习到的模型对未知数据的预测能力。首先给出泛化误差的定义。若学习到的模型是 ,那么用这个模型对未知数据预测的误差即为泛化误差 (generalization error): 泛化误差反应了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型有更小的泛化误差,那么这种方法就更加有效。
6.2 泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界 (generalization error bound)。对于一般的假设空间要找到泛化误差上界比较困难,这里不做介绍。
7 生成模型与判别模型
生成方法有数据学习联合概率分布 ,然后求出条件概率分布 作为预测的模型,即生成模型:这样的方法之所以称之为生成方法,是因为模型表示了给定输入 产生输出 的生成关系。典型的生成模型有朴素贝叶斯与隐马尔可夫模型等。
判别方法由数据直接学习决策函数 或条件概率分布 作为预测的模型,即判别模型。判别方法关心的是对给定的输入 ,应该预测怎么样的输出 。典型的判别模型有 近邻法、感知机、决策树、Logistics 回归等。
生成模型的特点:可以还原出联合概率分布 ;收敛速度更快;当存在隐变量时,仍可以使用。
判别模型的特点:学习准确度更高;可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题。
8 监督学习的应用
8.1 分类问题
在监督学习中,当输出变量 取有限个离散值时,预测问题便称为分类问题。这时,输入变量 可以时离散的,也可以是连续的。分类的类别为多个是,称为多类分类问题。本书主要讨论二类分类问题。
评价分类器性能的指标一般是分类准确率 (accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是 0-1 损失时测试数据集上的准确率。
对于二类分类问题常用的评价指标时精确率 (precision) 与召回率 (recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类;
FN——将正类预测为负类;
FP——将负类预测为正类;
FN——将负类预测为负类;
精确率定义为
召回率定义为
此外,还有 值,是精确率和召回率的调和平均值,即
8.2 标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。可以认为标注问题是分类问题的一个推广,标注问题有事更复杂的结构预测问题的简单形式。
评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率与分类模型相同。
标注常用的统计学习方法有:隐马尔科夫模型、条件随机场。
8.3 回归问题
回归 (regression) 用于预测输入变量(自变量)与输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归模型正式表示从输入变量当输出变量之间的函数。回归问题的学习等价于函数拟合。
回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以由著名的最小二乘法 (least squares) 求解。