机器学习入门书解读-西瓜书以及习题，刷书第一遍开始2018-04

2018-04-01 本文已影响125人水球喵

今天看了绪论，大概简要介绍了下基本术语。
就想先总结下，首先，这里是地球上，地球上所有人就叫一个数据集，其中有一个我，我就是个样本。在地球上每个人是不同的，暂时还没发现有一个人跟我是一模一样的，我这个样本嘛，有很多属性，有性别，年龄，身高等属性，她表示了小聊子这个人，性别女，身高1.7，身材不错，性格不错。我们把这么多属性用向量表示，这就叫特征向量，小聊子={1,2,1,0,2,3,5，....5},所以说，其实你本身就是个向量哟~~

突然有一天，我梦见，有大BOSS操纵着整个银河系，在他的世界里，我们的存在就是一个培养皿中不同区域的小细菌，哎呀！原来我们真的是一个样本！

现在，我长大了，发现需要一个跟我合得来的朋友，那什么样的朋友适合我，大BOSS帮我总结了下经验，据他所知，喜欢看我写文章的人是适合我的（偷笑），大BOSS其实就是个模型，他每天通过观察培养皿中的情况，从别的细菌那里（训练集），学习到了不少知识，毕竟是有主角光环的小聊子，出生就闪耀着非凡的光芒，但在大BOSS眼里，我只不过是一个测试集中的一个。大BOSS将我与一堆人分在一起，指定一个类别，分类。大BOSS觉得我跟这堆人聊得来的概率是88%，跟那一堆人是77%，给我提供了范围，回归。

终于，我有了一堆好朋友了，通常说物以类聚，人以群分。我们这些好朋友都有着相似的地方，到底是什么地方相似呢，不好说，没有完全正确的说法，心灵相通吧~~这就是聚类。

所以说，分类和回归呢，是有大BOSS监督的，而聚类是无监督的，是数据之间本身深层次的相似。

基本术语结束。后面的例子还是按照西瓜书来讲。

讲一下归纳和演绎。
归纳就是汲取经验，也就是说从个体到一般的过程。而演绎，就像书中所说，我现在已经知道一个定理了，那么我们就把他应用到某个人身上时，从一般情况到特例的过程。所以说，对于书中来预测好瓜的问题，可以这样理解。首先，我有一堆关于西瓜的数据，根据这些数据，我建立了一个模型，这个模型的建立过程其实就是归纳的过程。那么对于一个新的西瓜的属性进来，我怎样判断是好瓜还是坏瓜呢？根据我们建立的模型，我们做出一个推断，那么这个根据模型推断的过程就是一个演绎的过程。

接下来讲一下假设空间，版本空间，说实话，当时，我是晕掉了！
首先，一个假设是啥呢，比如我的眼睛是单眼皮儿还是双眼皮儿，一个假设就是一个属性还有他的各种取值情况。假设空间呢就是一堆属性包含每个属性的取值情况，探讨下，书中的假设空间有65怎么算？首先看4怎么来的，我们知道，色泽有污黑，青绿，浅白，另一种假设是任意属性呦，所以馁，就是四种。类比就是444.再加上“没有好瓜”的这种极端假设。共有65。

版本空间是在我们之前的65中假设中找出一个正确的假设，这个假设他可以描述这个1.1的数据集中是好瓜的情况，可以有很多奥，怎么理解呢？

1.1.png

仅仅看图的话，只要是根蒂蜷缩或者（两种情况），敲声是浊响或者的都是好瓜（两种情况），因为他们每个都减掉了另外两个能够使西瓜变为坏瓜的假设值（硬挺，稍卷和清脆，沉闷）。接下来分析，色泽青绿有可能是好瓜，也有可能是坏瓜，色泽污黑也是可能是坏的，可能是好的，不确定他到底能不能是好瓜，浅白就更没有在数据集中表示了，因为我们要找的是与数据集匹配的版本空间奥，所以对于色泽，只有第四种情况了，就是号，因为数据集中不确定到底是什么色泽决定了他是好瓜。所以，经过根蒂和敲声的组合的话，所以我们有这么几个假设，比如（A） ，卷曲，浊响。（B），，浊响。）（C） ，卷曲，（D），，。那么这个D，他是否和正确的假设么，答案是不是，因为，，相当于任意取值，我们发现任意取值时，是符合坏瓜的情况存在，所以去掉D，就剩3中情况了。

归纳偏好是什么意思？
对于1.1我们有了三个版本空间，那么我们选择哪一个属性作为关键属性呢，这个关键属性就是我们的偏好。怎么选择一个好的偏好，奥卡姆剃刀-“若有多个假设与观察一致，则选最简单的那个，与经验观察最一致的。”但是这个原则并不一定可行，对于NFL总误差与学习算法无关。所以，对于不同的任务，选择的偏好是不一样的！

接下来讨论下绪论的习题

西瓜书习题1.1

习题一.png
表示好瓜的话，那么我们就看第一行，色泽青绿，可以表示的是（青绿，），根蒂卷曲，可以表示的是（卷曲，），敲声就是（浑浊，*），互相组合就得到

A. 青绿，卷曲，浊响
B. 青绿，卷曲， *
C. 青绿， * ，浊响
D. 青绿， * ， *
E. * ，卷曲，浊响
F. * ， * ，浊响
G. * ，卷曲， *
H. * ， * ， *

为了表示完全好瓜这一项，我们当然要把能够表示坏瓜的情况去掉，所以就是去掉了，，*。就是H这项，所以这道题的答案应该是七种。

西瓜书习题1.2

与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间，试估算有多少种可能的假设。

西瓜书习题1.2.png

首先知道合取析取
合取：所有属性同时存在，集合中的取交集；举个例子就是，组成一个棒棒小聊的条件有胳膊，腿和头，每一个属性不可少（当然这三个只是一部分），就像题目中好西瓜中的色泽，根蒂，敲声合取得到一个好瓜一个意思。
析取：至少一个属性存在，集合中的取并集；例如，结合到这个问题上呢，就是表示了一个好孩子可以用学习好表示，也可以用品德好表示，这两个中任意一个都可以表示好瓜。

来分析下，
表1.1包含3种属性

它的假设空间和大小为 3×4×4+1=49 在加上*号的情况下。
考虑冗余情况: 2×3×3=18，没有*号的情况下。

不考虑冗余、空集的情况下k最大取值为48，考虑冗余的情况下k最大取值为18.
k=1时，共48种；
k=18时，共1种。

西瓜书习题1.3

若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择。

归纳偏好还是需要根据实际问题来做的
数据噪声是指在一组数据中无法解释的数据变动，就是一些不和其他数据相一致的数据。
所以如果数据量比较大，我们可以适当的删除掉这些数据，而数据量比较小的时候，我们可以选择使用相似性度量来衡量噪声数据与真实偏好的距离，将其归于正确与否。

西瓜书习题1.5

试述机器学习在互联网搜索的哪些环节起什么作用

图像检索，图片处理，翻译，智能推荐

机器学习入门书解读-西瓜书以及习题，刷书第一遍开始2018-04

西瓜书习题1.1

西瓜书习题1.2

西瓜书习题1.3

西瓜书习题1.5

猜你喜欢

热点阅读