机器学习介绍及相关准备

2019-05-18  本文已影响0人  斌斌爱学习

    在学习机器学习之前,我希望向大家介绍一下在机器学习领域常用的一些专业术语,以及在我们第一阶段即传统机器学习算法阶段需要用到的一些技术,希望大家有所准备。

一、机器学习常见术语:

我们以要做一个通过全身照识别性别项目为例来介绍以下名词。我们做这样一个项目,首先要拿到一大批男女的全身照数据即照片和照片对应的性别,然后通过提取一些特殊的属性,得出一个模型以达到向其输入其中任意一张人的照片可以得到对应的性别。

1.数据集:要进行机器学习,就要先有数据。那数据集就是我们输入的一大批图片
2.特征变量:特征变量就是我们提取出的一些特殊的属性,如身高、长发短发等等。相当于我们面向编程中类对应的属性。
3.特征值:特征值即特征变量对应的具体的值,如身高180cm等。
4.训练:由数据学得模型的过程叫做训练。
5.模型:模型应该很好理解,就类似我们的数学方程式。即y=ax+b
6.标签:在性别识别项目中即男和女,在计算机中对应0和1
7.训练集:在进行机器学习训练以得出模型的过程中,我们通常会将数据集分为训练集和验证集。训练集即参与训练得出模型所用的数据集。
8.验证集:验证集主要用于验证模型的准确性。一般在数据充足的情况下,训练集和验证集的比例我们会选择8:2。

在机器学习任务中,我们主要解决以下三类问题:分类问题、回归问题、聚类问题

分类问题:将特征值代入模型,得出一个标签值,如你是男是女,标签是离散值
回归问题:将特征值代入模型,可以得出一系列连续的值,如预测明天某只股票的价格
聚类问题:将一堆没有标签的数据,通过指定算法对其特征值分析,将一堆数据集划分为几大类。聚类问题属于无监督学习的范畴。

上面提到无监督学习,那其对应的就是监督学习。两者的主要区别是训练集有没有对应的标签。

二、开始机器学习需要准备的一些技术

1.编程语言:python作为机器学习的首选语言,其主要原因是因为它在库特别全,无论是矩阵运算,图片处理等等的支持库都比较全。
2.IDE:写代码离不开IDE,前期我推荐大家安装anaconda使用其中的jupyterNotebook,后期进入到深度学习大家可以安装pycharm
3.数学知识:主要涉及微积分、概率论、矩阵运算等。这些可以边学边补

前期的准备工作大概就是这样,下一节我们就将正式进入传统机器学习算法的学习。

上一篇 下一篇

猜你喜欢

热点阅读