1. 统计学习方法概论

2018-08-15  本文已影响0人  楼桑村小秀才

统计学习方法

定义
如果一个系统能够通过执行某个过程改进它的性能, 这就是学习

对象
数据(data), 从数据出发, 提取数据的特征, 抽象出数据的模型, 发现数据中的知识, 最终回到对数据的分析与预测中去.

前提
具有某种共同性质的数据, 其具有一定的统计规律性

分类
监督学习, 非监督学习, 半监督学习, 强化学习

基本概念

输入空间: 输入所有可能的取值集合
输出空间: 输出所有可能的取值集合
特征空间: 每个具体的输入是一个实例, 通常由特征向量表示. 所有特征向量存在的空间

监督学习产生的最终模型可以是概率模型或非概率模型
概率模型由条件概率分布P(Y|X)表示
非概率模型由决策函数Y=f(X)表示

常用损失函数

  1. 0-1损失函数L(Y,f(X))=1(Y\neq f(X)), 0 (Y=f(X))
  2. 平方损失函数L(Y,f(X))=(Y-f(X))^2
  3. 绝对损失函数L(Y,f(X))=|Y-f(X)|
  4. 对数损失函数L(Y,P(Y|X))=-logP(Y|X)

对数损失函数用于概率模型中

损失函数值越小, 模型就越好. 模型输入输出(X,Y)都是随机变量, 遵循联合分布P(X,Y)
损失函数的期望:
R_{exp}(f)=E[L(Y,f(X))]=\int_{(x,y)}L(Y,f(x))P(x,y)dxdy
或者\sum_{x=1}\sum_{y=1}\Big(L(y,f(x))*P(x,y)\Big)
以上损失也称为期望损失, 记为R_{exp}

给定一个训练数据集, 模型f(X)关于训练数据集的平均损失称为经验损失, 记为R_{emp}

期望风险是模型关于联合分布的期望损失, 经验风险是模型关于训练样本集的平均损失.
当样本容量N趋于无穷时, 经验风险趋于期望风险.

监督学习的基本策略

经验风险最小化ERM

经验风险最小的模型就是最优模型, 经验风险最小化求最优模型就是求解最优化问题
当样本容量小时, 容易产生过拟合现象

结构风险最小化SRM

正则化. 在经验风险上加上表示模型复杂度的正则化项.
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
J(f)表示模型的复杂度, 模型f越复杂, J(f)就越大; f越简单, J(f)就越小. 复杂度表示了对复杂模型的惩罚. \lambda\geq0是系数, 用以权衡经验风险和模型复杂度.

过拟合

当模型的复杂度增大时, 训练误差会逐渐减小并趋于0; 而测试误差会先减小, 达到最小值后又增大.
当选择的模型复杂度过大时, 过拟合现象就会发生.

正则化

正则化等价于结构风险最小化策略的实现, 在经验风险上加一个正则化项或罚项.
正则化项一般是模型复杂度的单调递增函数

交叉验证
  1. 简单交叉验证

随机的将数据分为两部分, 训练集和测试集. 用训练集在各种条件下训练模型, 在测试集上评估各个模型的测试误差

  1. S折交叉验证

随机的将数据集切分为S个互不相交的大小相同的子集, 其中的S-1个子集作为训练集, 余下的作为测试集; 将这一过程对可能的S种选择重复进行.

  1. 留一交叉验证

S折的特殊情况, 取S=N(数据集的容量)

上一篇下一篇

猜你喜欢

热点阅读