大学编程实验代码

CH01 统计学习方法概论

2019-01-06  本文已影响0人  Pursuer96
4RcOWibT3oY.jpg

导读

实现统计学习方法的步骤

统计学习方法三要素:模型,策略,算法.

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间, 即学习模型的集合.
  3. 确定模型选择的准则, 即学习的策略
  4. 实现求解最优模型的算法, 即学习的算法
  5. 通过学习方法选择最优的模型
  6. 利用学习的最优模型对新数据进行预测或分析.

统计学习方法三要素

模型

模型是什么?

在监督学习过程中, 模型就是所要学习的条件概率分布或者决策函数.

注意书中的这部分描述,整理了一下到表格里:

假设空间\cal F 输入空间\cal X 输出空间\cal Y 参数空间
决策函数 $\cal F\it ={f_{\theta} Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ 变量 变量 \bf R\it ^n
条件概率分布 $\cal F\it ={P P_{\theta}(Y X),\theta\in \bf R \it ^n}$ 随机变量 随机变量 \bf R\it ^n

书中描述的时候,有提到条件概率分布族,这个留一下,后面CH06有提到确认逻辑斯谛分布属于指数分布族。

策略

损失函数与风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

  1. 损失函数(loss function)或代价函数(cost function)
    损失函数定义为给定输入X预测值f(X)真实值Y之间的非负实值函数, 记作L(Y,f(X))

  2. 风险函数(risk function)或期望损失(expected loss)
    这个和模型的泛化误差的形式是一样的
    R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y
    模型f(X)关于联合分布P(X,Y)平均意义下的损失(期望损失), 但是因为P(X,Y)是未知的, 所以前面的用词是期望, 以及平均意义下的.

    这个表示其实就是损失的均值, 反映了对整个数据的预测效果的好坏, P(x,y)转换成\frac {\nu(X=x, Y=y)}{N}更容易直观理解, 可以参考CH09, 6.2.2节的部分描述来理解, 但是真实的数据N是无穷的.

  3. 经验风险(empirical risk)或经验损失(empirical loss)
    R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))
    模型f关于训练样本集的平均损失
    根据大数定律, 当样本容量N趋于无穷大时, 经验风险趋于期望风险

  4. 结构风险(structural risk)
    R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)
    J(f)为模型复杂度, \lambda \geqslant 0是系数, 用以权衡经验风险和模型复杂度.

常用损失函数

损失函数数值越小,模型就越好

L(Y,f(X))

  1. 0-1损失
    L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases}
  2. 平方损失
    L=(Y-f(X))^2
  3. 绝对损失
    L=|Y-f(X)|

L(Y,P(Y|X))

  1. 对数损失
    这里P(Y|X)\leqslant 1,对应的对数是负值,所以对数损失中包含一个负号,为什么不是绝对值?因为肯定是负的。
    L=-\log P(Y|X)

ERM与SRM

经验风险最小化(ERM)与结构风险最小化(SRM)

  1. 极大似然估计是经验风险最小化的一个例子.
    当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.
  2. 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子.
    当模型是条件概率分布, 损失函数是对数损失函数, 模型复杂度由模型的先验概率表示时, 结构风险最小化等价于最大后验概率估计.

算法

这章里面简单提了一下,具体可以参考CH12表格中关于学习算法的描述。

模型选择

  1. 正则化
    模型选择的典型方法是正则化
  2. 交叉验证
    另一种常用的模型选择方法是交叉验证
    • 简单
    • S折(K折, K-Fold)[^1]
    • 留一法

泛化能力

注意泛化误差的定义,书中有说事实上,泛化误差就是所学习到的模型的期望风险

生成模型与判别模型

监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)

生成方法

generative approach

判别方法

discriminative approach

分类问题、标注问题、回归问题

Classification, Tagging, Regression

上一篇 下一篇

猜你喜欢

热点阅读