版本空间的理解
2017-01-10 本文已影响1340人
Gressil
开始看周志华的机器学习,学习第一章的时候发现对版本空间的理解有点问题,查了一些资料终于弄清楚了。
首先,书里面的图1.2是有错误的。见勘误表,改正之后就好理解了。
- p.6, 图1.2: 图中两处"清脆" --> "浊响"
- p.28, 第3段倒数第2行: "大量" --> "不少"
。。。
版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集
关于版本空间,必须可以从版本空间里面假设可以推出表里面的结论
表 1.1 西瓜数据集
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
习题1.1,如果只考虑1, 4两行,那么所有假设空间有49种(3X4X4+1),随便取16种:
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
6 色泽=*,根蒂=稍蜷,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
8 色泽=*,根蒂=*,敲声=清脆
9 色泽=*,根蒂=*,敲声=沉闷
10 色泽=青绿,根蒂=蜷缩,敲声=*
11 色泽=青绿,根蒂=硬挺,敲声=*
12 色泽=青绿,根蒂=稍蜷,敲声=*
13 色泽=乌黑,根蒂=蜷缩,敲声=*
14 色泽=乌黑,根蒂=硬挺,敲声=*
15 色泽=乌黑,根蒂=稍蜷,敲声=*
16 Ø
编号为1的第一行数据可以删除假设空间中的3、5、6、8、9、11-15,为什么可以删除3呢, 是因为
3 色泽=乌黑,根蒂=*,敲声=* #无论*如何取值,都无法得到表种第一列的结论
编号为4的数据可以删除剩下假设空间中的1,为什么可以删除1呢,是因为
1 色泽=*,根蒂=*,敲声=* #当*分别为 乌黑,稍蜷,沉闷的时候会得出坏瓜,所以这个假设也要删除
其他的同理。
删除之后假设空间还剩下2、4、7、10
2 色泽=青绿,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
10 色泽=青绿,根蒂=蜷缩,敲声=*
以上即为版本空间。
更详细习题解答看这里理解假设和版本空间,周志华《机器学习》第一章习题讨论