机器学习

2023-06-16  本文已影响0人  温柔倾怀

人工智能三要素:数据、算力、算法

机器学习定义

  1. 机器学习是一门从数据中研究算法的科学学科。
  2. 机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测;
  3. 备注:机器学习就是一个模拟人决策过程的一种程序结构。

机器学习概念

拟合:构建的算法模型符合给定数据的特征

鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据。【学习能力强,练习的会做,考试的也会做】

机器学习分类

有监督学习:用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
无监督学习:与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
半监督学习:考虑如何利用少量的标注样本大量的未标注样本进行训练和分类的问题,是有监督学习和无监督学习的结合。

有监督学习(分类类型的算法)

判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别模型有:Logistic回归、决策树、支持向量机SVM、k近邻、神经网络等;
生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,常见生成式模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;

无监督学习

无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。
无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息。

半监督学习(SSL)

主要考虑如何利用少量的标注样本大量的未标注样本进行训练和分类的问题。
半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
SSL的成立依赖于模型假设,主要分为三大类:平滑假设、聚类假设、流行假设;
其中流行假设更具有普片性。
SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维。
缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来的发展主要是聚焦于新模型假设的产生。

机器学习分类2

分类:通过分类模型,将样本数据集中的样本映射到某个给定的类别中,在模型构建之前,类别信息已经确定了。【有监督】
聚类:通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大。【无监督】
回归:反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则:获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。

分类任务评估指标

准确率 Accuracy

召回率 Recall

精确率 Precision

F1指标 F1 measure

混淆矩阵

分类结果混淆矩阵

TP:正确的识别为正例
FN:错误的识别为负例
FP:错误的识别为正例
TN:正确的识别为负例
预测正确的:TP+TN
预测错误的:FN+FP

ROC曲线

ROC曲线特殊点

O点:TPR=0,FPR=0【正例一个没预测出,负例也没预测为正例--->全部预测为负例】
A点:TPR=1,FPR=0【正例全部预测出,负例没有预测为正例--->全部预测正确】
B点:TPR=1,FPR=1【正例全部预测出,负例全部预测为正例--->全部预测为正例】
D点:TPR=0,FPR=1【正例一个没预测出,负例全部预测为正例--->全部预测错误】

ROC曲线特点

TPR(正正例率)

FPR(假正例率)

AUC

回归结果度量

平均绝对误差 mean_absolute_error
平均平方误差 mean_squared_error

模型评估总结_分类算法评估方式

指标 描述 scikit-learn函数
Precision 精确度 from sklearn.metrics import precision_score
Recall 召回率 from sklearn.metrics import recall_score
F1 F1指标 from sklearn.metrics import f1_score
Confusion Matrix 混淆矩阵 from sklearn.metrics import confusion_matrix
ROC ROC曲线 from sklearn.metrics import roc
AUC ROC曲线下的面积 from sklearn.metrics import auc

模型评估总结_回归算法评估方式

指标 描述 scikit-learn函数
Mean Square Error (MSE, RMSE) 平均方差 from sklearn.metrics import mean_squared_error
Absolute Error (MAE, RAE) 绝对误差 from sklearn.metrics import mean_absolute_error,
median_absolute_error R-Squared R平方值 from sklearn.metrics import r2_score
上一篇 下一篇

猜你喜欢

热点阅读