机器学习基础

2018-11-23 本文已影响0人星泼拿衣服

人工智能研究分支

机器学习直接来源于早期的人工智能领域，传统的算法：决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。
从学习方法上来分，机器学习算法可以分为监督学习（如分类问题）、无监督学习（如聚类问题）、半监督学习、集成学习、深度学习(即深度神经网络)和强化学习。
深度学习(迁移学习(用冗余对抗复杂，利用不同任务间的相关性))

传统的机器学习算法：指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等领域商业化，应用与场景，但每前进一步都异常艰难，直到深度学习算法的出现。

对迁移学习理解。
总结一下，迁移学习应用广泛，尤其是在工程界，不管是语音识别中应对不同地区的口音，还是通过电子游戏的模拟画面前期训练自动驾驶汽车，迁移学习已深度学习在工业界之所以成功的最坚实支柱，而学术界对迁移学习的研究则关注以下几点，一是通过半监督学习减少对标注数据的依赖，应对标注数据的不对称性，二是用迁移学习来提高模型的稳定性和可泛化性，不至于因为一个像素的变化而改变分类结果，三是使用迁移学习来做到持续学习，让神经网络得以保留在旧任务中所学到的技能。

最后引申来看，集成学习，例如AdaBoost其背后的机制，也可以看成是另一种形式的迁移学习，通过多次使用训练样本，并给不同的样本赋予不同的权重，集成学习也可以做到站在巨人的肩上。而Dropout机制，也是让网络训练中随机的丢失节点，从而使得网络不得不依据之前的模型进行迁移学习，从而提高泛化能力。迁移学习本质上利用的是不同任务间的相关性，用冗余对抗复杂。

数据集

大数据训练 = PCA降维、小批量、在线累计训练（样本数、特征值过多）

噪声

降维

减少数据集中特征数，即降维

特征降维的方法
前向特征选择方法，后向特征排除方法（大数据不适用）
比较好坏（测试集（全部数据），交叉训练（去掉一个特征））
去除相关性高的特征 = 相关性表（参数）
主成分分析PCA
线性判别分析LDA
深度学习稀疏编码SparseAutoEncoder
矩阵奇异值分解SVD

PCA转换过的特征无关=（朴素贝叶斯“不依赖假设”）{不依赖不相关区别}
细粒度 = PCA数据细粒敏感（模型主成分（成分（variance方差主（最大、最小））））

高维数据降维的方法
LASSO
主成分分析法
聚类分析
小类分析
线性判别
拉普拉斯特征映射

线性判别~~结果=LDA(参数)。一个空间使得类内距离最小类外间距最大~~

无/有监督分析Model

K-means~~聚类，无监督学习~~
SVM
最大熵
CRF~~序列化标注~~
HMM
MHMM

SVM

SVM核函数(多项式核函数，logistic核函数，径向核函数，Sigmoid核函数)
SVM（非/线性可分）
线性可分 = 设C=无穷大（最优化对象（非线性可分的SVM目标函数））{loss函数值不下降 = C（正则化系数（强度（惩罚项）））}

HMM

时间序列问题

时间排序算法Model
RSI~~相对强弱指标，relative strength index~~
MACD~~移动平均聚散指标，moveing average convergence divergence~~
ARMA
KDJ

隐马Model中预测问题的算法：
向前算法，向后算法，Baum-Welch算法，维比特算法
向前向后算法：评估问题 = 最佳模型 = 最佳概率 = 算法(多模型(参数))
Baum-Welch算法，无监督：模型训练问题 = 参数估计 = Baum-Welch算法(EM迭代())。
维比特算法：预测问题，最可能输出的状态序列。

评估模型

召回率=TP/(TP+FN)正确事件判错
精确率precision=TP/(TP+FP)错误事件判对
准确率acc=(TP+TN)/全部事件
f1-score
fbeta
混淆矩阵

决策树

决策树（树深度，一棵数量）

随机森林

随机森林（多棵树）
GradientBoosting Trees
学习方法=集成学习、步长的学习（学习率）

神经网络

神经网络（训练参数，层数）
神经网络：感知机，线性回归，对数几率回归

N维空间，最好检测outlier(离群点)的方法：
作正态分布概率图，作盒形图，马式距离，作散点图

对数几率回归Logistic regression和一般回归分析的区别：预测事件的可能性，度量模型拟合程度，估计回归曲线

过拟合，有监督学习，无监督学习

K折交叉验证：k更大就会有更加小bias。选择k值，最小化数据集之间的方差

模型的高bias，要降低它：减少特征空间的特征向量~~增加数据点~~
模型太简单，数据维数不够

回归模型中多重共线性问题
1.去除这两个共线性变量
2.去除一个共线性变量
3.计算VIF(方差膨胀因子)
4.保留变量，正则化，如岭回归，lasso回归
去除=相关矩阵(参数)。VIF大于等于8小于等于4相关性强

训练决策树模型，属性节点分裂，最大信息增益

核函数中径向基函数RBF，某种沿着径向对称的标量函数，拟合程度=RBF(gamma)

人工智能(机器学习(深度学习，迁徙学习，对抗学习，强化学习，流形学习，稀疏学习))
人脸识别，ocr

机器学习基础

数据集

噪声

降维

无/有监督分析Model

SVM

HMM

评估模型

决策树

随机森林

神经网络

猜你喜欢

热点阅读