李航统计学习方法(一)
2018-02-06 本文已影响47人
文子轩
1、特点
- 统计学习以数据为研究对象(数据驱动),以方法为中心,目的是为了对数据进行预测与分析。
2、方法
-
统计学习包括监督学习,非监督学习,半监督学习,强化学习。(以监督学习为主进行介绍)
-
统计学习的方法包括模型的假设空间、模型选择的准则以及模型学习的方法。
-
统计学习方法三要素:模型,策略,算法
统计学习方法步骤:
- 得到一个有限训练数据集
- 确定包含所有可能的模型假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的方法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测与分析
监督学习
其任务是学习一个模型,使模型能够对于任意给定的输入,对其对用的输出做出一个好的预测(此处的输入输出为系统的输入输出,与学习的输入输出不同)
image.png
模型
统计学习首要考虑的问题是学习什么样的模型,接着考虑按照什么样的准则学习或选择最优的模型。
策略:用经验风险估计期望风险。经验风险是模型关于训练样本集的平均损失,期望风险是模型关于联合分布的期望损失。但是经验风险估计期望风险往往不理想,要对经验风险进行矫正,这关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
image.png
image.png
模型评估与选择
方法:正则化和交叉验证
正则化:在经验风险上加正则化项
image.png
交叉验证(在数据不充足时使用):
- 当数据充足时,将数据随机分为训练集(训练模型)、验证集(选择模型)、测试集(评估最终的学习方法),选择对验证集有最小预测误差的模型。数据不充足时用交叉验证,基本思想为重复利用数据。
泛化能力
-
泛化误差是所学习到的模型的期望误差。
-
泛化误差上界:通过比较两种学习方法的泛化误差上界的大小来比较优劣。泛化误差上界有以下性质:它是样本容量的函数,当样本容量增加时,泛化误差上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界就越大。
生成模型与判别模型
生成模型
image.png
判别模型
image.png
分类
分类是监督学习的一个核心问题。当输出变量去有限个离散值是,预测问题便成为分类问题(输入可以是离散的也可以是连续的)
分类问题分为学习和分类两个过程
image.png
标注
image.pngimage.png
回归
回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量是值随之发生的变化。分为学习和预测两个过程
#