西瓜书记录（二）线性模型

2018-02-16 本文已影响0人咫尺是梦

线性模型有很好的可解释性 (comprehensibility)

线性回归

对数线性回归
假设我们认为示例所对应的输出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目标 :

广义线性模型

logistic regression

logistic function

对数几率函数是一种 "Sigmoid 函数"，它将 z 值转化为一个接近 0 或 1 的 y值并且其输出值在 z = 0 附近变化很陡。
Sigmoid 函数即形似 s 的函数。
logistic regression是直接对分类可能性进行建模，无需事先假设数据分布。这样就避免了假设分布不准确所带来的问题;它不是仅预测出"类别"，而是可得到近似概率预测。

线性判别分析

思想是设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。

令

分别表示第i∈ {0 ， 1} 类示例的集合、均值向量、协方差矩阵。可得到欲最大化的目标：

其中

多分类学习

N 个类别 C₁ ， C₂，••• ， C_N ，多分类学习的基本思路是拆解法，即将多分类任务拆为若干个二分类任务求解。
最经典的拆分策略有三种. "一对一" (One vs. One，简称 OvO) 、 "一对其余" (One vs. Rest，简称 OvR)和"多对多" (Many vs. Many，简称 MvM).

OvO 与 OvR 示意图
OvO最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果.
最常用的 MvM 技术"纠错输出码" (Error CorrectingOutput Codes，简称 ECOC).
编码:对 N 个类别做 M 次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集;这样一共产生 M 个训练集，可训练出 M 个分类器.
解码:M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果.

ECOC 编码示意图"十 1" 、 "一 1" 分别表示学习器 fi 将该类样本作为正、反例;三元，码中 "0" 表示 fï 不使用该类样本

类别不平衡问题

指分类任务中不同类别的训练样例数目差别很大的情况。

方法：

1、再平衡

令 m^十表示正倒数目， m^一表示反倒数目

故而，可以令

再平衡
则采用当真实样本总体的无偏采样时的分类器决策规则：

2、直接对训练集里的反类样例进行"欠采样" (undersampling)

3、对训练集里的正类样例进行"过采样" (oversampling)

优化——Lagrange multipliers

先考虑等式约束。
假定 x为 d 维向量,欲寻找 z 的某个取值x^*，使目标函数 f(x) 最小且同时满足 g(x) = 0 的约束。从几何角度看，该问题的日标是在由方程 g(x) = 0 确定的 d-1 维曲面上寻找能使目标函数 f(x)最小化的点。

拉格朗日来子法的几何含义: 在 (a) 等式约束 g(x) = 0 或 (b) 不等式约束g(x ) ≤ 0 下，最小化目标函数 f(x). 红色曲线表示 g(x) = 0 构成的曲面，而其围成的阴影区域表示 g(x) < 0.
现在考虑不等式约束 g (x) ≤0。

对于 g(x) < 0 的情形，约束g(x) ≤0不起作用 ,可直接通过条件 ▽f(x ) = 0 来获得最优点;这等价于将 λ置零然后对 ▽_xL(x, λ) 置零得到最优点 . g(x ) = 0 的情形类似于等式约束的分析。但需注意的是，此时 ▽f(x^* ) 内方向必与 ▽g(x^* )相反，即存在常数λ >0 使得 ▽f(x^* ) 十 λ ▽g(x^* )= 0. 整合这两种情形,必满足 λg (x) = 0。可转化为在如下约束下最小化式拉格朗日函数 :

Karush-Kuhn-Tucker (KKT)条件(j =1，2 ，...，n)

拉格朗曰函数