RapidMiner（一）

2018-05-28 本文已影响489人 EvanForEver

RapidMiner，以前叫YALE (Yet Another Learning Environment) 。
RapidMinder提供的实验由大量的算子组成，使用图形化的用户接口可以将这些算子以积木块的方式搭建成系统。
是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

一、数据可视化

各种主要的可视化图例：

Scatter: 散布图
Scatter Matrix: 散布图阵列
Parallel: 平行坐标系
Histogram: 直方图
Histogram Color: 使用类标染色的单属性直方图
Quartile:盒状图
Quartile Color: 使用类标染色的单属性盒状图

二、数据预处理

各种主要的预处理部件：

Aggregate: 聚集
Sample: 抽样
Sample (Stratified): 分层抽样
Principle Component Analysis: 主成份分析
Selection系列: 特征子集选择
Generate Attributes: 特征创建
Fourier Transformation: 傅立叶变换
Discretize by Binning: 等宽离散化
Discretize by Frequency: 等频离散化
Discretize by Entropy: 基于熵的离散化
Normalize: 变量标准化 (Z-transformation, range transformation)

三、预测建模

交叉验证

四、文本分类

文本预处理：文档→向量空间模型

对于英文：
1、词项抽取: 简单
2、停用词移除
3、词干提取
4、频率统计和计算TF-IDF词权值
对于中文：
1、词项抽取: 简单
2、分词
3、频率统计和计算TF-IDF词权值
停用词移除
英语中很多经常使用的词在信息检索和文本挖掘中是没有用的 – 这些词称作停用词.
the, of, and, to, ….典型地有400到500个这样的词
对于特定应用, 可以构造一个附加的领域依赖的停用词表.
为什么需要移除停用词?
1、减少索引 (或数据) 文件的大小：停用词占20-30%的总词量.
2、提高效率和有效性：停用词对于搜索或文本挖掘是没有用的；停用词还可能迷惑检索系统.
词干提取
词干提取是简化单词的技术, 用于将单词变成它们的词根或词干. 比如,
词干use：nuser、nusers、nused、nusing
词干engineer：engineering、engineered、engineer
用处:
1、提高信息检索和文本挖掘的有效性：匹配相似的单词；主要提高查全率
2、减少索引的大小：合并相同词干的单词可以将索引大小减少到40-50%.
基本的词干提取方法
使用一组规则. 比如,
 移除词尾
若单词以一个不是s的辅音字母再跟s结尾, 则删除s.
若单词以es结尾, 则去掉s.
若单词以ing结尾, 则除非余下部分仅有一个字母或者是th, 否则删除ing.
若单词以ed结尾, 并且ed前面是一个辅音字母, 则除非仅剩下一个字母, 否则删除ed.
…...
 变换单词
若单词以ies而不是eies或aies结尾, 则将ies改成y.
频率统计 + TF-IDF
1、统计文档中某个单词出现的总次数.
使用出现次数表示单词在文档中的相对重要性.
若单词在文档中经常出现, 则文档很可能阐述的是关联于该单词的主题.
2、统计在文档集中包含某个单词的文档数目.
若单词出现在数据集的很多文档中, 则它可能并不是很重要, 或者说没有区别度.
3、然后计算TF-IDF, 将文档转换成向量空间模型.

向量空间模型

TF-IDF词权值表

TF-IDF词权的计算例子

RapidMiner（一）

一、数据可视化

二、数据预处理

三、预测建模

交叉验证

四、文本分类

向量空间模型

五、文本分类模型

建立文本分类模型，并使用外部数据集评估

建立文本分类模型交叉验证评估并保存模型

应用保存的模型进行新闻归类

猜你喜欢

热点阅读