1.机器学习基础

2021-10-24 本文已影响0人唐人三藏

1、机器学习定义：

专门研究计算机怎么模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构（利用数据或者经验等）使之不断改善自身的性能。

2、机器学习分类：

监督学习：在训练时提供训练样本和类别标签。

无监督学习：在训练时只提供训练样本，不提供类别标签，发现规律，利用规律。

半监督学习：训练数据有部分有标签，部分没有标签。对有标识的建模，用已经建好的模型，对没有标签的预测，选择确定性高的样本贴上标签，原来有标签的数据跟筛选出来的数据重新建模。

强化学习：通过试错发现最优策略，而不是带有标签的学习。

3、在机器学习中，要解决某一问题，通常把问题分为分类、回归、聚类、强化学习；有监督的学习主要有分类、回归；无监督的学习主要有聚类

分类问题：根据数据样本抽取出的特征，判定其属于有限个类别中的哪一个。大多会产出一个概率值，对概率值排序得到该样本属于哪个类别的概率最高。

回归问题：根据样本上抽取的特征，预测连续值结果。

聚类问题：根据数据样本抽取的特征，挖掘出数据的关联模式。

4、机器学习流程

数据预处理

模型学习

模型评估

新样本预测

5、训练集和验证集的划分：

方法1：先将数据分为训练集和测试集，再将训练集分为真正的训练集和验证集。验证集是为了调整超参。

方法2：采用交叉验证法，这种方法可以避免方法1的”碰巧“事件。一般都会选择这个方法。

这两种方法都是为了选出最优的超参。