李航统计学习方法（一）

2018-02-06 本文已影响47人文子轩

其任务是学习一个模型，使模型能够对于任意给定的输入，对其对用的输出做出一个好的预测（此处的输入输出为系统的输入输出，与学习的输入输出不同）

image.png

统计学习首要考虑的问题是学习什么样的模型，接着考虑按照什么样的准则学习或选择最优的模型。

策略：用经验风险估计期望风险。经验风险是模型关于训练样本集的平均损失，期望风险是模型关于联合分布的期望损失。但是经验风险估计期望风险往往不理想，要对经验风险进行矫正，这关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

image.png

image.png

正则化：在经验风险上加正则化项

image.png

当数据充足时，将数据随机分为训练集（训练模型）、验证集（选择模型）、测试集（评估最终的学习方法），选择对验证集有最小预测误差的模型。数据不充足时用交叉验证，基本思想为重复利用数据。

泛化误差是所学习到的模型的期望误差。
泛化误差上界：通过比较两种学习方法的泛化误差上界的大小来比较优劣。泛化误差上界有以下性质：它是样本容量的函数，当样本容量增加时，泛化误差上界趋于0；它是假设空间容量的函数，假设空间容量越大，模型越难学，泛化误差上界就越大。

生成模型

image.png

判别模型

image.png

分类是监督学习的一个核心问题。当输出变量去有限个离散值是，预测问题便成为分类问题（输入可以是离散的也可以是连续的）

分类问题分为学习和分类两个过程

image.png

image.png

回归用于预测输入变量与输出变量之间的关系，特别是当输入变量的值发生变化时，输出变量是值随之发生的变化。分为学习和预测两个过程