data mining-输出：知识的表达

2018-09-20 本文已影响0人 crishawy

机器学习方法的基本知识表达形式是以决策树或者规则来展现，知识是用来描绘由机器学习方法产生的结构。

表

采用与输入方式相同的形式-表，建立决策表或者回归表。

输出为各属性的加权总和，若输入和输出属性都是数值型，通常用线性回归模型来刻画机器学习。

决策树：从独立实例学习的“分治”方法。
如果决策树上属性是名目类型，则这个节点下的分支个数即为名目个数。如果决策树上属性是数值类型，则通常测试这个节点上的数值是否大于或者小于某个定义的量，通常数值类型的决策树称为回归树。

规则是一种受欢迎的取代决策树的方法。规则的前件给出一系列的测试，规则的后件给出适合于该规则所覆盖实例的一个或多个分类。

规则是容易处理的，每条规则被当作一个新的、独立的信息块操作。

一些规则隐含另一些规则，当多条规则相互关联时，需要减少规则的数目，通常选取最重要的一条规则代替多条关联的规则。

某些定义的规则可能不适用于所有的实例，需要新定义例外的规则来修正这些特殊的实例。

当实例数量过多时，某些规则可能能够在给出的一部分实例中很好的运行，但它们不是最好的方案，此时引入基于实例的规则，更好的将规则与实例相结合，从而给出较优良的方案。

最简单的学习形式即是死记硬背，知识保存所有实例的信息，这是基于实例的学习。因此基于实例的学习是懒惰的，学习机总是尽可能学习到最多的样本，导致延缓实质性的工作。如最近的k邻居分类方法，这是利用实例的所有属性欧式距离，来寻得最小距离分类。基于所有实例的学习往往比人工的直觉学习更有效。