机器学习-3:机器学习的基础概念
监督学习和无监督学习
机器学习领域主要分两个大类,分别是监督学习和无监督学习,他俩最核心的区别在于数据有没有标签。
假如监督学习的样本数据为D,则该D包含样本的特征(用x表示)和标签(用y表示),监督学习的样本数据是既有特征又有标签的,所以监督学习的核心就是学习出x到y之间的映射关系,也称x到y的函数。
映射关系是选择线性的映射关系还是非线性的映射关系取决于我们选择的模型是线性的模型,还是神经网络或svm或其他的非线性的模型。
对无监督学习其数据只有x没有y,即没有任何标签,比如有一堆图片但是并不知道这些图片是什么类别,没有标签就学不到映射关系。那能做的就是寻找x的特征或规律,比如通过一个算法分析大量样本内部的性质,根据性质把样本分成几大类等,每一个大类都有自己的共性。比如对用户群体分类,制定个性化方案。
通俗讲,监督学习中的样本通常包含样本特征和对该样本的标签,目的就是使机器学习出样本特征到标签的映射关系;无监督学习的样本只有数据特征没有标签,没有标签也就没有映射关系,能做的就是寻找数据的特征和规律,算法过程不依赖于数据的标签只能做一些分析和分类工作。其中最经典的就是聚类分析,也就是把类似的物体聚集在一起。
在工业界应用主要还是以监督学习为主,对于无监督学习的实际场景主要还是以聚类分析为主(聚类分析就是无监督学习中的经典应用),其中最经典的聚类算法叫做 K-means,也是一个极其简单的算法。 另外,聚类分析方法经常用在营销过程当中。
对于监督学习拥有大量的例子,只要有标签而且跟预测相关都可以归类为监督学习。
经典算法
对于监督学习和无监督学习都有一些经典的算法,其中监督学习的算法有:
线性回归:回归里最经典且最简单的算法,可预测某个值;
逻辑回归:其不是一个回归算法主要解决分类问题,是建立在线性回归之上的一个线性模型;
朴素贝叶斯:经典简单,适合文本分类场景;
决策树:类似于树状结构,我们每天都在潜意识中使用该模型;
随机森林:用多个决策树一起做决策,类似于同样的问题给多个专家,让他们自己回答并整合他们的结论;
SVM:机器学习里最难的;
神经网络:是深度学习的基础。
无监督学习算法有:
PCA:经典降维算法,把一个高维的数据映射到低维空间里。降维的好处是可以降噪,把没用的信息去掉,可以把数据可视化,在2维空间里没办法可视化的数据,可以降维到2维或3维空间里,通过肉眼的方式来观察;
K-means:最经典的聚类算法,在大量样本发现类似点,然后把他们聚在一个类别里面;
GMM:与k-means相关,可以看成是k-means的一个特例,区别是在于k-means里面一个物体只能属于一个类别;
LDA:是一个主题的模型,经常用在抽取主题特征的时候。
回归和分类
任何机器学习算法都可以归类为回归和分类问题,主要区别在于这两个输出不一样,区分这两者的关键在于区分预测值是什么形式。
回归问题就是用来预测某一个具体的数值,其输出的是连续性数值,比如温度、身高、气温等;分类问题则预测某一个具体的类别并定性输出,类别没有大小关系,比如阴或晴、好或坏、图像分类等。
数据的特征,样本和标签
描述物体的具体属性和信息叫特征,如对鸟分类数据的翅膀颜色、大小、爪子形状、飞行高度等都称为特征;
标签是数据的预测值,如根据不同的特征可以分为鸽子、大雁、喜鹊等预测值;
每一条具体的物体特征和标签可组成一行,每行是一个样本。
训练数据和测试数据
在机器学习模型中,用来训练模型的数据叫训练数据;对训练出来的模型进行评估的数据叫测试数据;通常会把原始数据分成两份,一份用来训练一份用来评估。