机器学习_Python算法

《统计学习方法》-第一章(3)

2019-08-11  本文已影响7人  皮皮大

生成模型与判别模型

监督学习的任务就是学习一个模型,这个 模型一般是决策函数:Y=f(X)或者条件概率分布:P(Y|X)

分类

监督学习的方法分为两类:

生成方法

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,生成模型为:P(Y|X)=\frac{P(X,Y)}{P(X)}

判别方法

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。判别方法关心的是给定输入X,应该预测出什么样的Y值。

监督学习应用

分类问题

在监督学习中,输出变量Y取有限个离散值,预测问题变成了分类问题。输入变量X离散或者连续均可。分类问题有学习和分类两个过程:

评价指标

评价分类问题的指标是分类准确率accuracy。定义:给定的预测数据集,分类器正确分类的样本数/总样本数,也是损失函数是0-1损失时候测试机数据上的准确率:
r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i={\hat f(x_i)})

对于二分类问题常用的评价指标是:精准率precision和召回率recall。根据实际结果和预测结果的正负性,有4种情况:
第一个字母表示预测的正确或者错误;第二个字母表示预测出来的结果

1:表示预测为正例;0:表示预测为负例

分类 真实值 预测值
TP 1 1
FN 1 0
FP 0 1
TN 0 0

精准率定义为:预测为正例的数据里预测正确的个数P=\frac{TP}{TP+FP}召回率定义为:真实为正例的那些数据里预测正确的数据个数R=\frac{TP}{TP+FN}

F_1值是精准率和召回率的调和平均值,定义为\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}=\frac{2TP}{2TP+FP+FN}

关于精准率和召回率以及混淆矩阵的知识点,参考:

https://www.cnblogs.com/liweiwei1419/p/9870034.html

https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

image.png
具体应用

标注问题

标注tagging问题输入的是一个观测序列,输出的是一个标记序列或状态序列。标注问题分为学习和标注两个过程。应用领域

常用标注问题的统计学习方法:

回归问题

特点

回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系。

基本过程:从训练数据集构建一个模型,即函数Y=f(X),然后对新的输入x_{N+1}根据学习到的模型Y=f(X)确定相应的输出y_{N+1}
损失函数:回归问题中常用的损失函数是平方损失函数,通过最小二乘法求解

应用
上一篇 下一篇

猜你喜欢

热点阅读