西瓜书(周志华机器学习)读书笔记之归纳偏好
2018-10-16 本文已影响0人
菜鸟瞎编
书中讲到好瓜可能是这样的
image.png
这个数据映射出这样的版本空间:
image.png 最后模型学习出的结果可能是
但是由于我们的训练数据是有限的,训练数据很可能并不能覆盖整个假设空间,只是覆盖了一部分,叫做“版本空间”。
这个数据映射出这样的版本空间:
image.png 最后模型学习出的结果可能是
满足这样条件的瓜才是好瓜。
这里忽略了敲声这个属性(就是这个属性对决策结果不产生影响),为什么会这样呢?因为在训练数据中,根蒂蜷缩的恰好都是敲声浊响,相关性太强了,模型在学习过程中可能就忽略了这个属性。也有可能忽略根蒂属性,得出敲声浊响的是好瓜的结论。也有可能都不忽略,但这样的可能性很小。
从这里可以得到的一个启发就是:如果在一个问题中,有些属性或者维度 相关性非常强,也可能导致某些属性被忽略的情况。
因为不同的模型有不同的偏好,比如有模型倾向于忽略根蒂,有的模型倾向于忽略敲声,这时我们如果把这两个模型融合,就会得到比单模型更好的结果。
文中提到如果模型没有偏好,就会造成对同一种瓜的推断结果时而是好的时而是不好的。我的理解是这样会造成模型不收敛,就是说如果遇到模型不收敛的情况,也可能是由于有些属性相关性太强。