【数据挖掘】Rapid Miner

RapidMiner(一)

2018-05-28  本文已影响489人  EvanForEver

RapidMiner,以前叫YALE (Yet Another Learning Environment) 。
RapidMinder提供的实验由大量的算子组成,使用图形化的用户接口可以将这些算子以积木块的方式搭建成系统。
是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

一、数据可视化

各种主要的可视化图例:

  1. Scatter: 散布图
  2. Scatter Matrix: 散布图阵列
  3. Parallel: 平行坐标系
  4. Histogram: 直方图
  5. Histogram Color: 使用类标染色的单属性直方图
  6. Quartile:盒状图
  7. Quartile Color: 使用类标染色的单属性盒状图

二、数据预处理

各种主要的预处理部件:

  1. Aggregate: 聚集
  2. Sample: 抽样
  3. Sample (Stratified): 分层抽样
  4. Principle Component Analysis: 主成份分析
  5. Selection系列: 特征子集选择
  6. Generate Attributes: 特征创建
  7. Fourier Transformation: 傅立叶变换
  8. Discretize by Binning: 等宽离散化
  9. Discretize by Frequency: 等频离散化
  10. Discretize by Entropy: 基于熵的离散化
  11. Normalize: 变量标准化 (Z-transformation, range transformation)

三、预测建模

交叉验证

四、文本分类

文本预处理:文档→向量空间模型

向量空间模型

TF-IDF词权值表

TF-IDF词权的计算例子

五、文本分类模型

建立文本分类模型,并使用外部数据集评估

建立文本分类模型交叉验证评估并保存模型

应用保存的模型进行新闻归类

上一篇下一篇

猜你喜欢

热点阅读