机器学习基础

2018-11-23  本文已影响0人  星泼拿衣服
人工智能研究分支

机器学习直接来源于早期的人工智能领域,传统的算法:决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。
从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习(即深度神经网络)和强化学习。
深度学习(迁移学习(用冗余对抗复杂,利用不同任务间的相关性))

传统的机器学习算法:指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等领域商业化,应用与场景,但每前进一步都异常艰难,直到深度学习算法的出现。

对迁移学习理解。
总结一下,迁移学习应用广泛,尤其是在工程界,不管是语音识别中应对不同地区的口音,还是通过电子游戏的模拟画面前期训练自动驾驶汽车,迁移学习已深度学习在工业界之所以成功的最坚实支柱,而学术界对迁移学习的研究则关注以下几点,一是通过半监督学习减少对标注数据的依赖,应对标注数据的不对称性,二是用迁移学习来提高模型的稳定性和可泛化性,不至于因为一个像素的变化而改变分类结果,三是使用迁移学习来做到持续学习,让神经网络得以保留在旧任务中所学到的技能。

最后引申来看,集成学习,例如AdaBoost其背后的机制,也可以看成是另一种形式的迁移学习,通过多次使用训练样本,并给不同的样本赋予不同的权重,集成学习也可以做到站在巨人的肩上。而Dropout机制,也是让网络训练中随机的丢失节点,从而使得网络不得不依据之前的模型进行迁移学习,从而提高泛化能力。迁移学习本质上利用的是不同任务间的相关性,用冗余对抗复杂。

数据集

大数据训练 = PCA降维、小批量、在线累计训练(样本数、特征值过多)

噪声

降维

减少数据集中特征数,即降维

PCA转换过的特征 无关=(朴素贝叶斯“不依赖假设”){不依赖不相关区别}
细粒度 = PCA数据细粒敏感(模型主成分(成分(variance方差主(最大、最小))))

线性判别结果=LDA(参数)。一个空间使得类内距离最小类外间距最大

无/有监督分析Model

K-means聚类,无监督学习
SVM
最大熵
CRF序列化标注
HMM
MHMM

SVM

SVM核函数(多项式核函数,logistic核函数,径向核函数,Sigmoid核函数)
SVM(非/线性可分)
线性可分 = 设C=无穷大(最优化对象(非线性可分的SVM目标函数)){loss函数值不下降 = C(正则化系数(强度(惩罚项)))}

HMM

时间序列问题

时间排序算法Model
RSI相对强弱指标,relative strength index
MACD移动平均聚散指标,moveing average convergence divergence
ARMA
KDJ

隐马Model中预测问题的算法:
向前算法,向后算法,Baum-Welch算法,维比特算法
向前向后算法:评估问题 = 最佳模型 = 最佳概率 = 算法(多模型(参数))
Baum-Welch算法,无监督:模型训练问题 = 参数估计 = Baum-Welch算法(EM迭代())。
维比特算法:预测问题,最可能输出的状态序列。

评估模型

召回率=TP/(TP+FN)正确事件判错
精确率precision=TP/(TP+FP)错误事件判对
准确率acc=(TP+TN)/全部事件
f1-score
fbeta
混淆矩阵

决策树

决策树(树深度,一棵数量)

随机森林

随机森林(多棵树)
GradientBoosting Trees
学习方法=集成学习、步长的学习(学习率)

神经网络

神经网络(训练参数,层数)
神经网络:感知机,线性回归,对数几率回归


N维空间,最好检测outlier(离群点)的方法:
作正态分布概率图,作盒形图,马式距离,作散点图

对数几率回归Logistic regression和一般回归分析的区别:预测事件的可能性,度量模型拟合程度,估计回归曲线

过拟合,有监督学习,无监督学习

K折交叉验证:k更大就会有更加小bias。选择k值,最小化数据集之间的方差

模型的高bias,要降低它:减少特征空间的特征向量增加数据点
模型太简单,数据维数不够

回归模型中多重共线性问题
1.去除这两个共线性变量
2.去除一个共线性变量
3.计算VIF(方差膨胀因子)
4.保留变量,正则化,如岭回归,lasso回归
去除=相关矩阵(参数)。VIF大于等于8小于等于4相关性强

训练决策树模型,属性节点分裂,最大信息增益

核函数中径向基函数RBF,某种沿着径向对称的标量函数,拟合程度=RBF(gamma)

人工智能(机器学习(深度学习,迁徙学习,对抗学习,强化学习,流形学习,稀疏学习))
人脸识别,ocr

上一篇 下一篇

猜你喜欢

热点阅读