Weka在数据挖掘中的运用 02 Getting Started

2020-09-25  本文已影响0人  jenye_

Weka的发音不是Weaker


安装Weka

Explorer界面


对于这门课程指用到Exploer界面。


Weka界面上方有五个不同的面板(Panel)
Preprocess:预处理
Classify:分类面板
Cluster:据类面板
Associate:关联规则
Select attributes:属性选择
Visualize:可视化面板
在这门课中,我们只学习使用预处理面板打开文件,用分类面板做数据分类,用可视化面板来打开一个数据集。

数据集

eg:天气数据集


14个样本,14天的天气,五个属性,其中四个与天气相关,第五个属性Play(玩),代表适不适合做某件事。

我们要做的就是同个其他属性来预测可以Play(玩)的可能性。

打开数据集

[图片上传中...(image.png-ca03db-1600935667732-0)]

通过open file打开数据集,例子中的数据集在Weka安装目录中的data中。

数据集在Weka的展示

属性值的数量

先不管彩色的图像是什么。
我们看左边的信息。
有15个Instances(实例、样本),每个样本有5个属性。
分别是outlook(阴晴)、temperature、humidity、windy、play。
我们点击了一个属性之后, 右上方可以看看到属性的数值有哪些。
如图,outlook,属性为sunny有5个,overcast(多云)有4个,rainy有5个。一共就十四个样本。
点击其他属性就可以看到不同属性的属性值在样本中所占的数量。

Weka柱状图的含义

我们点击play属性,可以看到。



图像play的属性显示了9个yes,5个no。

回到outlook,就可以看到


属性值为sunny的样本有5个,其中3个样本play属性值为no(红色),2个样本为yes(蓝色)。outlook属性值为cloudy的时候4个样本play的属性值都是yes(蓝色)

编辑面板



点击Edit就可以打开编辑面板直接修改数据集的数值。



编辑完之后点击Save就会保存(这里不要点,之后实验还需要用到这个数据集)
上一篇下一篇

猜你喜欢

热点阅读