1.机器学习基础

2021-10-24  本文已影响0人  唐人三藏

1、机器学习定义:

专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构(利用数据或者经验等)使之不断改善自身的性能。

2、机器学习分类:

监督学习:在训练时提供训练样本和类别标签。

无监督学习:在训练时只提供训练样本,不提供类别标签,发现规律,利用规律。

半监督学习:训练数据有部分有标签,部分没有标签。对有标识的建模,用已经建好的模型,对没有标签的预测,选择确定性高的样本贴上标签,原来有标签的数据跟筛选出来的数据重新建模。

强化学习:通过试错发现最优策略,而不是带有标签的学习。

3、在机器学习中,要解决某一问题,通常把问题分为分类、回归、聚类、强化学习;有监督的学习主要有分类、回归;无监督的学习主要有聚类

分类问题:根据数据样本抽取出的特征,判定其属于有限个类别中的哪一个。大多会产出一个概率值,对概率值排序得到该样本属于哪个类别的概率最高。

回归问题:根据样本上抽取的特征,预测连续值结果。

聚类问题:根据数据样本抽取的特征,挖掘出数据的关联模式。

4、机器学习流程

数据预处理

模型学习

模型评估

新样本预测

5、训练集和验证集的划分:

方法1:先将数据分为训练集和测试集,再将训练集分为真正的训练集和验证集。验证集是为了调整超参。

方法2:采用交叉验证法,这种方法可以避免方法1的”碰巧“事件。一般都会选择这个方法。

这两种方法都是为了选出最优的超参。

上一篇下一篇

猜你喜欢

热点阅读