RapidMiner（二）

2018-05-28 本文已影响59人 EvanForEver

六、中文网页分类

部件说明：

部件Process Documents from Files，设置第一个参数为只能中文网页所在的路径，对应的class name可以任意填写，设置encoding为GB18030，勾选extract text only、add meta information和create word vector。注意添加的元信息字段都不是regular角色的，不会被聚类算法处理。
使用Generate Attributes部件增加一个cutname字段，使用正则表达式cut(metadata_file,0,4)生成该字段。
设置正确的label角色的字段，注意数据集中只能有一个label角色的字段。先使用Select Attributes部件，删除原来label角色的字段，即label。然后使用Set Role部件，将cutname字段改成label角色。
使用K-Means部件，注意参数k的数值要与训练集的类数目一致。
使用Map Clustering on Labels部件产生predicate(label)字段（这是一个predicate角色的字段）。
使用Performance部件，对label角色的和predicate角色的字段值进行比较和统计，算出性能评估结果，比如准确率等。

部件说明：

Apriori部件参数中find min number of itemsets模式的解释
min number of itemsets: 挖掘的频繁项集的最小个数。
max number of retries: 最大的尝试次数。
Apriori部分从指定的支持度阈值min support开始，每次尝试递减支持度阈值的10%，直到找到指定个数的频繁项集或者尝试次数达到max number of retries时结束。
Create Association Rules部分用到的兴趣度X→Y
Laplace: (？(X∪Y)+1) / (？(X)+k)
Gain: s(X∪Y) - q s(X)
p-s: 平衡度 s(X∪Y) - s(X)s(Y)
Lift: 提升率 s(X∪Y) / (s(X)s(Y))
Conviction: 信任度 (s(X) - s(X)s(Y)) / (s(X) - s(X∪Y))