@IT·互联网

机器学习基础概念

2020-12-12  本文已影响0人  DancingBUG

什么是机器学习

机器学习出现之前:

编写算法规则,输入计算机,机器执行后输出结果。


举个栗子:垃圾邮件分辨

编写规则定义什么是垃圾邮件,新邮件根据规则去判定是否为垃圾邮件。

再举个栗子:分辨猫狗

人工定义无数的猫、狗特征,比如耳朵长度、斑纹、眼睛大小。。。

更多无数用传统方法解决的问题:人脸识别、语音识别、文字数字识别等。。。

人类如何学习?

随着年龄的增长,见闻的增加,不断吸取各类知识,对事物的判断力不断增加。


机器学习出现后

编写机器学习算法,输入计算机大量数据并训练出模型,机器根据模型去判断新的数据。


粗略的总结:

机器学习的数据

一个非常著名的数据集:鸢尾花(Iris)

数据案例
数据信息
数学相关:


数据的可视化

将两类鸢尾花的前两个特征(萼片长度、萼片宽度)绘制在一个平面图内,可以得到以下图像:


分类任务的本质就是在特征空间切分


特征也可以很抽象

机器学习的主要任务

机器学习两大类任务:分类、回归

分类:

猫狗识别,垃圾邮件分类……

二分类:

多分类:

多标签分类(高级):

回归

回归最大的特点:结果标签列不是类别,而是连续的数字

回归和分类的联系:

数学相关:

机器学习方法分类

机器学习方法四大类:监督学习、非监督学习、半监督学习、增强学习

监督学习

给机器的训练数据拥有“标记”或“答案”,分类和回归任务都属于监督学习

无监督学习

给机器的训练数据没有任何“标记”或“答案”,聚类任务属于非监督学习

半监督学习

只有部分数据有“标记”或“答案”

增强学习

根据周围环境的情况采取行动,根据行动的结果,学习行动方式

增强学习

机器学习的其他分类

包括批量学习(非在线学习)、在线学习、参数学习、非参数学习

批量学习

一般的机器学习大多为批量学习,即模型为一次训练,不再将产出的预测结果或者新的样本投入训练

在线学习

整体的流程与批量学习大致相同,但每次用于预测的输入样例并不浪费掉,而是结合输出的正确结果再次投入模型训练

参数学习

先观察数据,假设数据符合一个统计模型(可以理解为函数),从而让机器去寻找函数中的参数

非参数学习

不对模型进行统计模型过多的假设,且预测的过程中,模型训练的数据集也要参与预测

机器学习相关的哲学思考

数据为王?

2001年微软的论文显示,在数据集的量大到足够多时,算法之间的准确率并没有很大差别,一时间甚至有“数据即算法”的言论

2001年微软论文
算法为王?

以AlphaGO ZERO为代表,从零开始,无数据冷启动,某些场景下即使没有数据,强大的算法也可以生成数据

如何选择机器学习算法
部分机器学习算法
其他思考

面多不确定的世界,怎么看待使用机器学习进行预测的结果?

上一篇 下一篇

猜你喜欢

热点阅读