每日三分钟,机器学习的入门知识

2019-03-12 本文已影响0人陌上凉烟

额... 虽说是技术文章，却不知该怎么下笔。

综合今天学到的基础知识，机器学习是基于样本数据的归纳实现最大化降低数据损失的工具（纯个人理解..）

接下来介绍几个基础概念，方便大家更好的理解

一：机器学习术语

1. 特征：事物所具备可描述的具体特征

2. 标签：这里指机器学习根据事物的特征要预测的东西

3. 样本：它分为有标签样本(包含事物的特征和标签)和无标签样本(只包含事物的特征，不包含标签)

4. 模型：定义了特征、标签之间的关系。

模型生命周期分两个阶段：训练阶段(给模型提供标签样本让模型学习)和推断阶段(将完成训练阶段的模型应用于无标签样本，得到无标签样本对应的预测标签值y

模型类型分为两类：回归模型(预测连续的标签值)和分类模型(预测离散的标签值)

二：线性回归

$y1 = b+w1x1+w2x2+w3x3$ ...

x1、x2、x3 代表了事物的三个特征，w1 、w2、w3 分别代表了三个特征相对于标签的权重，y1 是标签值，b 代表偏差(也称w0)

三：经验风险最小化

完成训练阶段的模型对无标签样本进行推断产生的标签值，有可能和实际的标签值产生误差，叫做损失。训练模型不断检查多个标签样本最大限度减少损失的过程，叫做经验风险最小化

四：降低损失方法

由于采集到的数据(有标签样本)数量很庞大，如果采用全批量迭代方法将数据都添加到训练阶段中去，会花费巨额的计算时间，得不偿失

可以采用随机梯度下降发 随机抽取各个批量的一个样本去计算，找到最接近、误差最小的真实标签值，不过，现在采用最多的方法是小批量随机下降法（10-1000个随机样本）。