机器学习入门书解读-西瓜书以及习题,刷书第一遍开始2018-04
今天看了绪论,大概简要介绍了下基本术语。
就想先总结下,首先,这里是地球上,地球上所有人就叫一个数据集,其中有一个我,我就是个样本。在地球上每个人是不同的,暂时还没发现有一个人跟我是一模一样的,我这个样本嘛,有很多属性,有性别,年龄,身高等属性,她表示了小聊子这个人,性别女,身高1.7,身材不错,性格不错。我们把这么多属性用向量表示,这就叫特征向量,小聊子={1,2,1,0,2,3,5,....5},所以说,其实你本身就是个向量哟~~
突然有一天,我梦见,有大BOSS操纵着整个银河系,在他的世界里,我们的存在就是一个培养皿中不同区域的小细菌,哎呀!原来我们真的是一个样本!
现在,我长大了,发现需要一个跟我合得来的朋友,那什么样的朋友适合我,大BOSS帮我总结了下经验,据他所知,喜欢看我写文章的人是适合我的(偷笑),大BOSS其实就是个模型,他每天通过观察培养皿中的情况,从别的细菌那里(训练集),学习到了不少知识,毕竟是有主角光环的小聊子,出生就闪耀着非凡的光芒,但在大BOSS眼里,我只不过是一个测试集中的一个。大BOSS将我与一堆人分在一起,指定一个类别,分类。大BOSS觉得我跟这堆人聊得来的概率是88%,跟那一堆人是77%,给我提供了范围,回归。
终于,我有了一堆好朋友了,通常说物以类聚,人以群分。我们这些好朋友都有着相似的地方,到底是什么地方相似呢,不好说,没有完全正确的说法,心灵相通吧~~这就是聚类。
所以说,分类和回归呢,是有大BOSS监督的,而聚类是无监督的,是数据之间本身深层次的相似。
基本术语结束。后面的例子还是按照西瓜书来讲。
讲一下归纳和演绎。
归纳就是汲取经验,也就是说从个体到一般的过程。而演绎,就像书中所说,我现在已经知道一个定理了,那么我们就把他应用到某个人身上时,从一般情况到特例的过程。所以说,对于书中来预测好瓜的问题,可以这样理解。首先,我有一堆关于西瓜的数据,根据这些数据,我建立了一个模型,这个模型的建立过程其实就是归纳的过程。那么对于一个新的西瓜的属性进来,我怎样判断是好瓜还是坏瓜呢?根据我们建立的模型,我们做出一个推断,那么这个根据模型推断的过程就是一个演绎的过程。
接下来讲一下假设空间,版本空间,说实话,当时,我是晕掉了!
首先,一个假设是啥呢,比如我的眼睛是单眼皮儿还是双眼皮儿,一个假设就是一个属性还有他的各种取值情况。假设空间呢就是一堆属性包含每个属性的取值情况,探讨下,书中的假设空间有65怎么算?首先看4怎么来的,我们知道,色泽有污黑,青绿,浅白,另一种假设是任意属性呦,所以馁,就是四种。类比就是444.再加上“没有好瓜”的这种极端假设。共有65。
版本空间是在我们之前的65中假设中找出一个正确的假设,这个假设他可以描述这个1.1的数据集中是好瓜的情况,可以有很多奥,怎么理解呢?
1.1.png
仅仅看图的话,只要是根蒂蜷缩或者(两种情况),敲声是浊响或者的都是好瓜(两种情况),因为他们每个都减掉了另外两个能够使西瓜变为坏瓜的假设值(硬挺,稍卷和清脆,沉闷)。接下来分析,色泽青绿有可能是好瓜,也有可能是坏瓜,色泽污黑也是可能是坏的,可能是好的,不确定他到底能不能是好瓜,浅白就更没有在数据集中表示了,因为我们要找的是与数据集匹配的版本空间奥,所以对于色泽,只有第四种情况了,就是号,因为数据集中不确定到底是什么色泽决定了他是好瓜。所以,经过根蒂和敲声的组合的话,所以我们有这么几个假设,比如 (A) ,卷曲,浊响。 (B) ,,浊响。 )(C) ,卷曲,(D),,。那么这个D,他是否和正确的假设么,答案是不是,因为,,相当于任意取值,我们发现任意取值时,是符合坏瓜的情况存在,所以去掉D,就剩3中情况了。
归纳偏好是什么意思?
对于1.1我们有了三个版本空间,那么我们选择哪一个属性作为关键属性呢,这个关键属性就是我们的偏好。怎么选择一个好的偏好,奥卡姆剃刀-“若有多个假设与观察一致,则选最简单的那个,与经验观察最一致的 。”但是这个原则并不一定可行,对于NFL总误差与学习算法无关。所以,对于不同的任务,选择的偏好是不一样的!
接下来讨论下绪论的习题
西瓜书习题1.1
习题一.png表示好瓜的话,那么我们就看第一行,色泽青绿,可以表示的是(青绿,),根蒂卷曲,可以表示的是(卷曲,),敲声就是(浑浊,*),互相组合就得到
A. 青绿,卷曲,浊响
B. 青绿,卷曲, *
C. 青绿, * ,浊响
D. 青绿, * , *
E. * ,卷曲, 浊响
F. * , * ,浊响
G. * , 卷曲, *
H. * , * , *
为了表示完全好瓜这一项,我们当然要把能够表示坏瓜的情况去掉,所以就是去掉了,,*。就是H这项,所以这道题的答案应该是七种。
西瓜书习题1.2
与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
西瓜书习题1.2.png首先知道合取析取
合取:所有属性同时存在,集合中的取交集;举个例子就是,组成一个棒棒小聊的条件有胳膊,腿和头,每一个属性不可少(当然这三个只是一部分),就像题目中好西瓜中的色泽,根蒂,敲声合取得到一个好瓜一个意思。
析取:至少一个属性存在,集合中的取并集;例如,结合到这个问题上呢,就是表示了一个好孩子可以用学习好表示,也可以用品德好表示,这两个中任意一个都可以表示好瓜。
来分析下,
表1.1包含3种属性
它的假设空间和大小为 3×4×4+1=49 在加上*号的情况下。
考虑冗余情况: 2×3×3=18,没有*号的情况下。
不考虑冗余、空集的情况下k最大取值为48,考虑冗余的情况下k最大取值为18.
k=1时,共48种;
k=18时,共1种。
西瓜书习题1.3
若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
归纳偏好还是需要根据实际问题来做的
数据噪声是指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。
所以如果数据量比较大,我们可以适当的删除掉这些数据,而数据量比较小的时候,我们可以选择使用相似性度量来衡量噪声数据与真实偏好的距离,将其归于正确与否。
西瓜书习题1.5
试述机器学习在互联网搜索的哪些环节起什么作用
图像检索,图片处理,翻译,智能推荐