统计机器学习阶段性总结(1)
这一阶段首先了解了统计学习基本概念
学习的算法有
1 感知机
2 k近邻
3 贝叶斯
4 决策树
统计学习的目的是对数据进行分析、预测。使得计算机更加智能化。主要分为监督学习和非监督学习。对于监督学习,可以通俗的理解为有标准答案,而非监督学习,没有。
监督学习通常从测试数据入手,根据数据的特征,生成一个模型,这个模型来自于假设空间,然后使用这个模型,对测试数据进行预测。如果用这个模型对原始的训练数据进行预测,根据预测结果,和原始数据标准答案进行对比,可以用来评价模型的好坏优劣!机器学习的目的在于从假设空间中选择出最优的模型。
概念
输入空间:输入的所有可能取值通常称为输入空间,用大写的x表示。通常输入空间为一系列特征值,表现为向量的形式。
输出空间:输纸的所有可能取值称为输出空间,用大写的y表示。取值可能是标记,类别,或者连续的数值。
在机器学习的监督学习当中如果输出的y的数值是连续的,那么这种学习称为回归,如果输出的数值是离散的,称为分类。
联合概率分布:同时观测到输入的x和输出的y,那么可以表明x和y之间存在一定的联系。嗯嗯,学习的模型在于,模拟这种联系或者还原这种联系。这种联合概率分布,可以通过条件概率,或者决策函数来表示,条件,概率表示,当x发生时,y发生的几率有多少?决策函数决定了对于某一个x,它可以输出的y是多少?
统计学习三要素
统计学习的过程可以由模型策略和算法三个要素组成。统计学习的目的,通常是为了生成一个概率分布,或者是决策函数,而在,假设空间中,有无限个这样的决策函数。不同函数的差异体现在参数上,模型的生成,就意味着找出这些参数。
我要找到这个最优产出的策略,一般是最小化损失函数对于分类和标记问题,模型的损失函数是零一函数,回归预测的损失函数是平方损失函数,也就是预测值与原始值的平放误差。其他的还有绝对值损失函数和对数损失函数。实际上,求解最优模型的过程就是最小化损失函数,求出其中参数的过程。
根据原始数据生成的模型,标准答案的差异,也就是经验风险。最小化经验风险,求出,对应的最优模型。但是,当样本数量很小,是,经验风险最小化的学习方法,很容易产生过度拟合的现象。因此引入了结构风险最小化的方法,也就是加入了对于模型复杂度的惩罚。
算法是模型生成,是具体的实现方法。
模型验证
为了避免过度拟合,有两种方法可以选择,政策化和交叉验证,政策化是在,经验风险函数上加上一个正则项,这个正则项是模型复杂度的单调递增函数模型的复杂度越高,也意味着模型的复杂度越高,这个模型越不适合。
交叉验证是将原始数据,随机分成2到3个部分,一部分用于训练生成模型,一部分用于测试,对原始数据不断的随机划分,不断的生成模型和测试。
模型的泛化能力指的是,模型对于测试数据的预测结果非常好,同时对未知的数据也能够有很好的预测能力。否则要么是不完善,要么是过拟合。
模型的评判
分类模型
我在二分类问题中,定义原始数据的某一类为正,另一类为负。分类器的总体精确比率也就是损失函数,你妈,精确率表示的是预测结果为正类的,正确的概率,召回率指的是原始数据组为正的,预测结果为正的概率。
回归模型
回归模型通常用最小二乘法计算平方损失函数,来描述模型的误差。