sklearn——dataset模块学习
sklearn 的数据集有好多个种
自带的小数据集(packaged dataset):sklearn.datasets.load_<name>
可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name>
计算机生成的数据集(Generated Dataset):sklearn.datasets.make_<name>
svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)
从买了data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)
1、datasets.load_digits
手写数字数据集
2、make_blobs函数
from sklearn.datasets import make_blobs
make_blobs函数是为聚类产生数据集
产生一个数据集和相应的标签
n_samples:表示数据样本点个数,默认值100
n_features:表示数据的维度,默认值是2
centers:产生数据的中心点,默认值3
cluster_std:数据集的标准差,浮点数或者浮点数序列,默认值1.0
center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)
shuffle :洗乱,默认值是True
random_state:官网解释是随机生成器的种子
make_gaussian_quantiles
3、sklearn.datasets.make_sparse_coded_signal()
产生作为字典元素的稀疏组合生成信号。
【1】https://www.cnblogs.com/keye/p/8177995.html sklearn dataset 模块学习
【2】https://blog.csdn.net/dataningwei/article/details/53649330 sklearn之样本生成(2)