数据蛙数据分析每周作业

统计学习笔记(一)

2019-03-10  本文已影响12人  黑哥666

最近开始看李航老师的统计学习方法,在这里做点笔记

统计学习基本概念

定义:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科
对象:数据
目的:用于对数据进行分析和预测,特别是对未知新数据进行预测和分析
方法:统计学习的方法是基于数据构建统计模型从而对数据进行分析和预测,统计学习由监督学习、半监督学习、非监督学习和强化学习等组成

统计学习三要素

模型
策略
算法

实现统计学习的步骤

1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定模型选择的准则,即学习的策略
4.实现求解最优模型的算法,即学习的算法5
5.通过学习方法选择最优模型
6.利用学习的最优模型对新数据进行预测和分析

监督学习基本概念

输入空间:将输入的所有可能只的集合称为输入空间
输出空间:将输出的所有可能只的集合称为输入空间
特征空间:每个集体的输入是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间

联合概率分布:统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设

假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间

统计学习三要素

方法=模型+策略+算法

模型:监督过程所要学习的条件分布或决策函数

策略:学习的准则或选择最优模型
1.损失函数:预测值和真实值的差用一个函数表示,包括0-1损失函数、平方损失函数、绝对损失函数和对数损失函数
2.风险函数:损失函数的期望,理论上模型关于联合分布或决策函数的平均意义下的损失
3.经验损失:模型关于数据集的平均损失
4.结构风险:在经验损失的基础上加上表示模型复杂度的正则化项或罚项

算法:学习模型的具体计算方法

模型评估与选择

训练误差:模型关于训练数据集的平均损失
测试误差:模型关于测试数据集的平均损失
泛化能力:学习方法对未知数据的预测能力

过拟合:一味追求提高对训练数据的预测能力,所选的模型负责度则往往会比真模型更高,这种现象称为过拟合

正则化:是模型选择的一个典型方法,即结构风险最小化策略的实现,实在经验风险上加一个正则项或罚项,正则项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大

交叉验证:一种常用的模型选择方法,基本思想是重复地使用数据,把给定的数据进行切分,将切分的数据集组合成为训练集和测试机,在此基础上反复进行训练、测试以及模型选择。分为:简单交叉验证、S折交叉验证、留一交叉验证。

泛化能力

泛化能力:由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质
泛化误差:学习到的模型对未知数据预测的误差

上一篇 下一篇

猜你喜欢

热点阅读