基于R语言的分类、聚类研究

2018-11-07 本文已影响13人 H_xu

1 分类

1.1 决策树分类

library(party) 
set.seed(2)
data(iris)
#随机抽取训练集和测试集
index<-sample(1:nrow(iris),100)
train<-iris[index,]
test<-iris[-index,]
#建立C4.5决策树模型
ctree.model <- ctree(Species ~ ., data <- train)  
#输出决策树图
plot(ctree.model, type <- "simple")

决策树

#预测结果
train_predict <- predict(ctree.model)  # 训练数据集
test_predict <- predict(ctree.model, newdata <- test)  # 测试数据集
#输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(train, predictedclass=train_predict) 
train_confusion <- table(actual <- train$Species, predictedclass <- train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.96
#输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(test, predictedclass=test_predict)
test_confusion <- table(actual <- test$Species, predictedclass <- test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.96

1.2 神经网络分类

library(nnet)
data("iris")
set.seed(2)
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
trainset = iris[ind == 1,]
testset = iris[ind == 2,]
#预测结果
iris.nn = nnet(Species ~ .,data = trainset,size = 2,rang = 0.1,decay = 5e-4,maxit = 200)
summary(iris.nn)
#输出测试数据的分类结果和混淆矩阵
iris.predict = predict(iris.nn,testset,type = "class")
nn.table = table(testset$Species,iris.predict)
#判对率
sum(diag(prop.table(nn.table)))
#[1] 0.9347826

1.3 贝叶斯分类

data("iris")
set.seed(123) #设置随机种子
#抽取训练集和测试集
ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
traindata = iris[ind == 1,]
testdata = iris[ind == 2,]
# 使用naiveBayes函数建立朴素贝叶斯分类模型
library(e1071)  # 加载e1071包
naiveBayes.model <- naiveBayes(Species ~ ., data = traindata)  # 建立朴素贝叶斯分类模型
# 预测结果
train_predict <- predict(naiveBayes.model, newdata = traindata)  # 训练数据集
test_predict <- predict(naiveBayes.model, newdata = testdata)  # 测试数据集
# 输出训练数据的分类结果和混淆矩阵
train_predictdata <- cbind(traindata, predictedclass = train_predict) 
train_confusion <- table(actual = traindata$Species, predictedclass = train_predict)
#判对率
sum(diag(prop.table(train_confusion)))
#[1] 0.9811321
# 输出测试数据的分类结果和混淆矩阵
test_predictdata <- cbind(testdata, predictedclass = test_predict)
test_confusion <- table(actual = testdata$Species, predictedclass = test_predict)
#判对率
sum(diag(prop.table(test_confusion)))
#[1] 0.8863636

1.4 总结

1.所有在对iris数据集分（聚）类研究中，setosa均可以完全正确分（聚）类，而另外两类则会出现不同程度的误差，这也是导致整个研究模型出现误差的原因；
2.在使用的三种分类研究方法中，决策树模型的效果最优，因此可以使用该方法进行鸢尾花数据集的分类预测研究。

2 聚类

2.1 K-means

library(cluster)
#去除原有的factor类型的种类变量
df<-iris[,-5]
head(df)
#确定最佳聚类数目
library(factoextra)
fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)



#设置随机数种子，保证实验的可重复进行
set.seed(12)
#利用k-means进行聚类
km_result <- kmeans(df,3)
print(km_result)
#提取类标签并且与原始数据进行合并
mydf <- cbind(iris, cluster = km_result$cluster)
head(mydf)
#查看每一类的数目
table(mydf$cluster)
#进行可视化展示
fviz_cluster(km_result, data = df,
             palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)

k-means

table<-table(mydf$Species,mydf$cluster)
sum(diag(prop.table(table))) #判对率
#[1] 0.8933333

2.2 K-medoids

library(cluster)
#去除原有的factor种类变量
kmedf<-iris[,-5]
head(kmedf)
#分为三类
fit_pam=pam(kmedf,3) 
fit_pam[1:length(fit_pam)] 
#分类情况
summary(fit_pam)
mykmedf <- cbind(iris, cluster =fit_pam$clustering)
head(mykmedf)
#查看每一类的数目
table(mykmedf$cluster)
#进行可视化展示
fviz_cluster(fit_pam, data = mykmedf,
             palette = c("#2E9Fdf", "#00AFBB", "#E7B800", "#FC4E07"),
             ellipse.type = "euclid",
             star.plot = TRUE, 
             repel = TRUE,
             ggtheme = theme_minimal()
)

K-medoids

#判对率
kmetable<-table(mykmedf$Species,mykmedf$cluster)
sum(diag(prop.table(kmetable)))
[1] 0.8933333

2.3 层次聚类

hirisdata<-iris[,-5]
head(hirisdata)
#使用自底向上的聚类方法处理数据集：
hc = hclust(dist(hirisdata,method = "euclidean"),method = "ward.D2")
#调用plot函数绘制聚类树图
plot(hc,hang = -0.01,cex =0.7)

层次聚类

#定义count函数,计算分类准确率
mycount<-function(num,min,max)
{
  count=0
  {
    for (x in num) {
      if(x>=min&x<=max)
        count<-count+1
    }
  }
  count
}
num1<-hc$order[1:50]
count1<-mycount(num1,1,50)
num2<-hc$order[51:100]
count2<-mycount(num2,101,150)
num3<-hc$order[101:150]
count3<-mycount(num3,51,100)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.8
#验证标准化之后对聚类结果的影响
hirisdata<-scale(hirisdata)
#准确率
correctrate<-(count1+count2+count3)/150
[1] 0.52

2.4 总结：

1.在对鸢尾花数据集进行聚类时，K-means、K-medoids两种聚类方法的正确率相同，可见在数据集离群点和噪音不大的情况下，二者聚类效果基本相同，但当出现离群点和噪音时，应该考虑K-medoids聚类方法；
2.鸢尾花数据集进行聚类分析时，划分聚类效果优于层次聚类；
3.对于量纲不一致的数据，应进行标准化，但对于量纲一致的数据，标准化之后结果并不一定优于未标准化的数据得到的结果。