机器学习与模式识别程序员首页投稿(暂停使用,暂停投稿)

weka-Explorer-Preprocess 的使用

2016-03-17  本文已影响412人  yigoh

一、 实验目的

了解 weka 中 Explorer 的 Preprocess 相关功能。

二、 实验内容

进入 weka 中 Explorer 界面,打开 data 目录下 weather.numeric.arff 文件,了解 Preprocess 相关功能。

打开 weather.numeric.arff 文件

三、 实验过程

1. 了解 arff 格式

用记事本打开 weather.numeric.arff 文件,

@relation weather

@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

显而易见,可以知道 arff 格式是这样组织数据的:

2. 了解区域功能
Preprocess 界面

(0) 功能标签:用于数据预处理及针对数据进行的各种处理之间的切换。
(1) 编辑按钮:包括打开各种形式的数据集,生成数据集,撤销,编辑数据集和保存。
(2) 筛选器选择:对数据进行某种变换,比如离散化,二进制化。
(3) 当前信息:显示当前数据集的基本信息,包括关系名,属性个数,实例个数等。
(4) 属性信息:包括所有属性的显示和可以对它们进行的一些操作,比如移除一些无用属性,使数据集更简洁明了。
(5) 选中属性:显示当前选中的属性的摘要信息,比如名称、类型、数值等。
(6) 属性可视化:以直方图的形式显示当前选中属性,给人更直观的感受。
(00) 状态信息: 显示是否在进行数据挖掘,历史记录查看,内存使用信息等。

3. 举例操作
生成数据时用的规则 生成的数据(左至右依次为用 edit 打开,另存为 cvs 格式并用 excel 打开, preprocess 界面打开) 归一化时用的规则 归一化只对连续数据起作用,其结果也是连续的 humidity 原始数据 采用的离散化规则 离散化后的 humidity 数据 去除了 humidity 属性 离散数据,以各类别出现个数方式显示 连续数据,采用两极数值、平均数和标准差显示 以 play 为目标变量时各属性的可视化情况

以上,即为 weka 中 Explorer 的 Preprocess 界面的主要功能。

上一篇 下一篇

猜你喜欢

热点阅读