版本空间的理解

2017-01-10  本文已影响1340人  Gressil

开始看周志华的机器学习,学习第一章的时候发现对版本空间的理解有点问题,查了一些资料终于弄清楚了。
首先,书里面的图1.2是有错误的。见勘误表,改正之后就好理解了。

版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集
关于版本空间,必须可以从版本空间里面假设可以推出表里面的结论

表 1.1 西瓜数据集

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
4 乌黑 稍蜷 沉闷

习题1.1,如果只考虑1, 4两行,那么所有假设空间有49种(3X4X4+1),随便取16种:

1 色泽=*,根蒂=*,敲声=* 
2 色泽=青绿,根蒂=*,敲声=* 
3 色泽=乌黑,根蒂=*,敲声=* 
4 色泽=*,根蒂=蜷缩,敲声=* 
5 色泽=*,根蒂=硬挺,敲声=* 
6 色泽=*,根蒂=稍蜷,敲声=* 
7 色泽=*,根蒂=*,敲声=浊响 
8 色泽=*,根蒂=*,敲声=清脆 
9 色泽=*,根蒂=*,敲声=沉闷 
10 色泽=青绿,根蒂=蜷缩,敲声=* 
11 色泽=青绿,根蒂=硬挺,敲声=* 
12 色泽=青绿,根蒂=稍蜷,敲声=* 
13 色泽=乌黑,根蒂=蜷缩,敲声=* 
14 色泽=乌黑,根蒂=硬挺,敲声=* 
15 色泽=乌黑,根蒂=稍蜷,敲声=* 
16 Ø

编号为1的第一行数据可以删除假设空间中的3、5、6、8、9、11-15,为什么可以删除3呢, 是因为

3 色泽=乌黑,根蒂=*,敲声=* #无论*如何取值,都无法得到表种第一列的结论

编号为4的数据可以删除剩下假设空间中的1,为什么可以删除1呢,是因为

1  色泽=*,根蒂=*,敲声=* #当*分别为 乌黑,稍蜷,沉闷的时候会得出坏瓜,所以这个假设也要删除

其他的同理。

删除之后假设空间还剩下2、4、7、10

2 色泽=青绿,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
10 色泽=青绿,根蒂=蜷缩,敲声=*

以上即为版本空间。

更详细习题解答看这里理解假设和版本空间周志华《机器学习》第一章习题讨论

上一篇下一篇

猜你喜欢

热点阅读