sklearn库中的标准数据集及基本功能
2021-10-04 本文已影响0人
Cache_wood
@[toc]
数据集总览
波士顿房价数据集
波士顿房价数据集包含506组数据,每条数据包含房屋以及周围的详细信息。包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。可以用于回归问题。
使用sklearn.datasets.load_boston
即可加载相关数据集
其重要参数为:return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data.shape)
data,target = load_boston(return_X_y=True)
print(data.shape)
print(target.shape)
(506, 13)
(506, 13)
(506,)
鸢尾花数据集
鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。
测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。
类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica
。该数据可用于多分类问题。
使用sklearn.datasets.load_iris即可加载相关数据集。
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data.shape)
print(iris.target.shape)
print(list(iris.target_names))
(150, 4)
(150,)
['setosa', 'versicolor', 'virginica']
手写数字数据集
手写数字数据集包括1797个0-9的手写数字数据,每个数字有8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。
使用sklearn.datasets.load_digits即可加载相关数据集
from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(digits.target.shape)
import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()
(1797, 64)
(1797,)
sklearn库的基本功能
sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。
分类任务
分类模型 | 加载模块 |
---|---|
最近邻算法 | neighbors.NeatestNeighbors |
支持向量机 | svm.SVC |
朴素贝叶斯 | naive_bayes.GaussianNB |
决策树 | tree.DecisionTreeClassifier |
集成方法 | ensemble.BaggingClassifier |
神经网络 | neural_network.MLPClassifier |
回归任务
回归模型 | 加载模块 |
---|---|
岭回归 | linear_model.Ridge |
Lasso回归 | linear_model.Lasso |
弹性网络 | linear_model.ElasticNet |
最小角回归 | linear_model.Lars |
贝叶斯回归 | linear_model.BayesianRidge |
逻辑回归 | linear_model.LogisticRegression |
多项式回归 | preprocessing.PolynomialFeatures |
聚类任务
聚类方法 | 加载模块 |
---|---|
K-means | cluster.KMeans |
AP聚类 | cluster.AffinityPropagation |
均值飘移 | cluster.MeanShift |
层次聚类 | cluster.AgglomerativeClustering |
DBSCAN | cluster.DBSCAN |
谱聚类 | cluster.SpectralClustering |
降维任务
降维方法 | 加载模块 |
---|---|
主成分分析 | decomposition.PCA |
截断SVD和LSA | decomposition.TruncatedSVD |
字典学习 | decomposition.SparseCoder |
因子分析 | decomposition.FactorAnalysis |
独立成分分析 | decomposition.FastICA |
非负矩阵分解 | decomposition.NMF |
LDA | decomposition.LatentDirichletAllocation |