统计学习
统计学习
统计学习包括监督学习,非监督学习,半监督学习以及强化学习。
监督学习
监督学习的任务是学习一个模型,使模型能够对任意的给定输入,对其对应的输出做出一个好的预测。监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测,训练数据由输入与输出对组成。
输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题,输出变量与输出变量均为变量序列的预测问题称为标注问题。
统计学习三要素
方法 = 模型+策略+算法
模型
模型就是所要学习的条件概率分布或决策函数。
策略
1,损失函数和风险函数。
对于给定的输入x,由F(x)给出对应的输出Y,这个输出的预测值f(Y)与真实值Y可能一致,也可能不一致,用一个损失函数(loss function) 或 代价函数(cost function)来度量预测的错误程度。
2,经验风险最小化和结构风险最小化
经验风险最小化:在假设空间,损失函数,以及训练数据集确定的情况下,经验风险函数式(如下)可以确定,经验风险最小的模型就是最优的模型。
当样本数量过小的时候,会产生过拟合的现象,为了防止过拟合,结构风险最小化等于正则化。结构风险的定义如下:
其中:j(f)为模型的复杂度,模型f越复杂,复杂度J(f)越大,反之则越简单。复杂度表示了对复杂模型的惩罚。
3,算法
算法指学习模型的具体计算方法,考虑用什么样的计算方法求解最优模型。
过拟合
如果一味的追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型高,这种现象为过拟合。选择模型的参数过多,以至于这一模型对已知的数据预测得很好,但是对未知数据预测得很差的现象。
正则化
正则化一般是模型复杂度的单调递增的实现,模型越复杂,正则化的值越大。
交叉验证
交叉验证的基本想法是重复地使用数据,把给定的数据进行切分。 将数据分为训练集和测试集,反复训练,进行模型选择。具体可以看西瓜书中的方法,基于数据集大小采用不同的办法。
泛化能力
* 泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质。
* 学习方法的泛化能力分析往往是通过研究泛华误差的概率上界进行的,简称为泛华误差上界。具体来说,就是通过比较两种学习方法的泛华误差上界的大小来比较他们的优劣。
分类性能指标
评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试集,分类器正确分类的样本数和总样本数之比。如下图: