每日三分钟,机器学习的入门知识

2019-03-12  本文已影响0人  陌上凉烟

额... 虽说是技术文章,却不知该怎么下笔。

综合今天学到的基础知识,机器学习是基于样本数据的归纳实现最大化降低数据损失 的工具(纯个人理解..)


接下来介绍几个基础概念,方便大家更好的理解

一:机器学习术语

    1. 特征:事物所具备可描述的具体特征

    2. 标签:这里指机器学习根据事物的特征要预测的东西

    3. 样本:它分为有标签样本(包含事物的特征和标签)和无标签样本(只包含事物的特征,不包含标签) 

    4. 模型:定义了特征标签之间的关系。

                  模型生命周期分两个阶段:训练阶段(给模型提供标签样本让模型学习)和推断阶段(将完成训练阶段的模型应用于无标签样本,得到无标签样本对应的预测标签值y

                  模型类型分为两类:回归模型(预测连续的标签值)和分类模型(预测离散的标签值)

二:线性回归

      y1 = b+w1x1+w2x2+w3x3...

               x1、x2、x3 代表了事物的三个特征,w1 、w2、w3 分别代表了三个特征相对于标签的权重,y1 是标签值,b 代表偏差(也称w0)

三:经验风险最小化

        完成训练阶段的模型无标签样本进行推断产生的标签值,有可能和实际的标签值产生误差,叫做损失。训练模型不断检查多个标签样本最大限度减少损失的过程,叫做经验风险最小化

 四:降低损失方法

        由于采集到的数据(有标签样本)数量很庞大,如果采用全批量迭代方法将数据都添加到训练阶段中去,会花费巨额的计算时间,得不偿失

   可以采用随机梯度下降发 随机抽取各个批量的一个样本去计算,找到最接近、误差最小的真实标签值,不过,现在采用最多的方法是小批量随机下降法(10-1000个随机样本)。

上一篇下一篇

猜你喜欢

热点阅读