读书笔记 |《机器学习》的基本概念（二）

2017-10-26 本文已影响218人 rui_liu

-- 原创，除非授权，不得转载 2017.10.26 --

上一篇文章介绍了热门的概念之后，这篇文章，讲机器学习里的基本术语。

首先，我们要知道，机器学习，是输入大量的数据，利用算法，得到结果的过程。这些概念在机器学习里都有专业名词，知道了这些术语，才开启了机器学习的大门。

问：PM为什么要学这些？
答：知道了这些术语，你才能和程序猿哥哥们在同一频道上正常沟通。

机器学习

术语

1. 关于数据的概念

1.【样本/示例】：一条数据是关于一个事件或对象的描述。在坐标系里表示样本时，也称为【特征向量】。
2.【数据集】：多条数据（样本）的集合。

【属性】：表示对象在某方面的表现或性质。如，颜色、声音。
【属性值】：属性上的取值。如，颜色值：红色。声音：清脆。
【属性空间】：属性张成的空间。如，颜色，声音，大小，作为三个坐标轴，用于描述西瓜🍉，它们在坐标系里张成的空间叫属性空间，也称为【样本空间】【输入空间】。

4.【维数】：属性值的个数，称为维数。比如，颜色、声音、大小，构成了3维样本空间。

放松一下

2.关于学习过程的概念

0.【模型】：泛指从数据中学得的结果。
1.【训练/学习】：从数据中学得模型的过程。
2.【训练数据】：训练过程中使用的数据。
3.【训练样本】：训练数据中的每个样本。
4.【训练集】：训练样本组成的集合。

1.【假设】：学得模型对应了关于数据的某种潜在规律，称为假设。
2.【真相/真实】：这种潜在规律自身，称为真相。（只有上帝才知道真相，学习过程是为了逼近真相）
3.【学习器】：给定了参数、数据的学习算法。（实例化了一个模型）

稍等一下

3.关于结果的概念

0.【预测】：人类自己预先想到可能的结果。如，预测此模型能判别西瓜🍉的好坏。
1.【标记】：训练样本的结果。如，颜色：红色，声音：清脆，大小：大，训练结果：好瓜。“好瓜”称为标记。
2.【样例】：拥有了标记信息的样本，称为样例。
3.【标记空间】：所有标记的集合。

1.【泛化】：学得模型适用于新样本的能力。
2.【测试】：学得模型后，用其对新样本进行预测的过程。比如，判断一条新数据是不是“好瓜”。
3.【测试样本】：被测试的样本。

至此，我们用新的术语来描述一下，机器学习的过程。

我们用【多维】的数据【样本】进行【训练】，得到一些有【标记】的【训练样本】，以及找到了训练样本之间的规律【假设】，至此【学习器】初步完成。

为了检验学习器对新样本的【泛化】能力，是否和我们的【预测】差不多，我们用【测试样本】进行【测试】。

学会了开心吧

4. 关于学习任务的术语

【训练数据】可以使用有标记的样本，和无标记的样本。
于是学习任务可划分为两大类：【监督学习】和【无监督学习】。其中，常用的任务有【分类】【回归】【聚类】。

学习任务.png

1.【监督学习】：训练数据【有】标记信息。

a.【分类】：对指定的模式进行识别，预测值是离散的。如，识别西瓜是“好瓜”或“坏瓜”。属于【监督学习】
（离散在坐标轴上就是单个的点，如0，1，2。）
（连续在坐标轴上就是一条线，如0-2上所有的点连线。）
- 分类又分【二分类】和【多分类】。
- 【二分类】：对两个类别的分类，两个类分别叫【正类】【反类】。如：好瓜(正类)、坏瓜(反类)。
- 【多分类】：两个以上类别的分类。
b.【回归】：对指定的模式进行识别，预测值是连续的。如，识别西瓜的成熟度，0.81-0.99。属于【监督学习】

2.【无监督学习】：训练数据【没有】标记信息。

休息一下

5.关于学习偏好的术语

【偏好】：机器学习算法在训练过程中对某种类型假设的偏好。

这个术语需要单独解释一下。我们用书中的例子。

偏好

学得的模型可以用上图表示。

如，1. 色泽任意，根蒂蜷缩，敲声任意，的瓜，是好瓜。
也可以是，2. 色泽任意，根蒂蜷缩，敲声清脆，的瓜，是好瓜。

那么问题来了。

一条新数据。色泽青绿，根蒂蜷缩，声音沉闷，的瓜，测试结果是什么？
用1判别，是好瓜。
用2判别，是坏瓜。
改采用哪个？

这就由学习器本身的【偏好】决定了。如果你的学习器偏好1，那就是好瓜。如果偏好2，结果就是坏瓜。结果唯一。

又问：偏好怎么来的？能避免吗？
答：偏好由训练样本，以及学习算法的学习程度决定。
不能避免。没有偏好的学习器，时而判别为好瓜，时而判别为坏瓜，没有使用价值。

又问：有没有什么一般性原则引导学习器建立“正确”(我想要的)偏好？
答：有。如“奥卡姆剃刀：选择最简单的那个”
或者，具体问题具体分析。这就需要PM对于问题的定义了~

快结束啦

总结

所以，天下没有免费的午餐。所有的算法、数据都需要我们依据各自的问题和实际情况进行有目的的训练，没有一劳永逸的学习器。所以才需要PM这个职位。

身为PM，你要知道你的问题是什么，解决手段是什么？你有什么数据，标记过了吗？预测是什么？技术能实现吗？模型怎么测试？什么结果就达到你的要求了？

嗯，道阻且长，祝大家都成为合格的AI PM！