复现

【机器学习与R语言】5-规则学习算法

2020-09-03  本文已影响0人  生物信息与育种

1.分类规则原理

1.1 单规则算法1R

image.png

过程:对于每一个特征,基于相似的特征值1R对数据分组,然后对于每个书分组,该算法的预测类为占多数的类。比如动物分类中若以行走途径为规则错误率为2/15,若以是否有皮毛为规则错误率为3/15,因此1R算法基于以行走途径为规则返回结果。
注意:如果分类水平分布很不均匀,规则学习再预测少数类时会有困难。

不完全层现

单一的规则可能太简单了(大拇指规则),更复杂的任务需要考虑多个属性,用到更高级的规则学习算法,但早期这类算法非常慢,也不准确,因此陆续提出了IREP、RIPPER、IRPE++、SLIPPER、TRIPPER等算法来提高规则学习的性能。

1.2 RIPPER算法

image.png

2. 规则学习应用示例

应用规则学习识别有毒的蘑菇

1)收集数据

8124个蘑菇案例的22个特征,额外一列包含有毒和无毒信息。
数据下载:

链接: https://pan.baidu.com/s/1nrLEXkdISPSn1DLkjaPbMA 提取码: mhvr

2)探索和准备数据

## Example: Identifying Poisonous Mushrooms ----
## Step 2: Exploring and preparing the data ---- 
mushrooms <- read.csv("mushrooms.csv", stringsAsFactors = TRUE)

# examine the structure of the data frame
str(mushrooms)

# drop the veil_type feature
mushrooms$veil_type <- NULL

# examine the class distribution
table(mushrooms$type)

3)训练数据

## Step 3: Training a model on the data ----
library(RWeka)

# train OneR() on the data
mushroom_1R <- OneR(type ~ ., data = mushrooms)

mushroom_1R
特征气味odor被选为规则生成

4)评估性能

## Step 4: Evaluating model performance ----
summary(mushroom_1R)
image.png

准确率能达到98%以上,但错过了120种可以食用的蘑菇。

5)提高性能

训练JRip规则算法,从所有的可用特征中选择规则:

## Step 5: Improving model performance ----
mushroom_JRip <- JRip(type ~ ., data = mushrooms)
mushroom_JRip
summary(mushroom_JRip)
image.png
image.png

JRip分类器学习了9条规则。准确度提高到100%。

6)选择决策树中的分类规则

看一下,选择了两个特征,比较比较。

# Rule Learner Using C5.0 Decision Trees (not in text)
library(C50)
mushroom_c5rules <- C5.0(type ~ odor + gill_size, data = mushrooms, rules = TRUE) #rules分类规则生成一个模型
summary(mushroom_c5rules)
image.png

和1R算法的结果一样。


机器学习与R语言系列推文汇总:
【机器学习与R语言】1-机器学习简介
【机器学习与R语言】2-K近邻(kNN)
【机器学习与R语言】3-朴素贝叶斯(NB)
【机器学习与R语言】4-决策树
【机器学习与R语言】5-规则学习
【机器学习与R语言】6-线性回归
【机器学习与R语言】7-回归树和模型树
【机器学习与R语言】8-神经网络
【机器学习与R语言】9-支持向量机
【机器学习与R语言】10-关联规则
【机器学习与R语言】11-Kmeans聚类
【机器学习与R语言】12-如何评估模型的性能?
【机器学习与R语言】13-如何提高模型的性能?

上一篇 下一篇

猜你喜欢

热点阅读