sklearn学习 — 数据集

2020-01-29 本文已影响0人 _aLIEz

sklearn数据集

1. 数据集的划分

训练集：（占数据集比重高）用于训练，构建模型
测试集：在模型评估时使用，检验评估模型是否有效

训练集	测试集
建立模型	评估模型
75%~	~25%

sklearn数据集划分api ：sklearm.model_selection_train_test_split
* sklearm.model_selection_train_test_split(arrays,*option)
* x:数据集的特征值
* y：数据集的标签值
* test_size :测试集的大小，一般为float
* random_stata :随机数种子
* return :训练集特征值，测试集测试值，训练集标签，测试值标签（默认随机）

from sklearn.model_selection import train_test_split
li = load_iris()
'''x_train , y_train , x_test , y_test'''
x_train , y_train , x_test , y_test = train_test_split(li.data,li.target,test_size=0.25)
print("训练集的特征值和目标值:",x_train,y_train)
print("训练集的特征值和目标值:",x_test,y_test)

sklearn.datasets
加载获取流行数据集
- datasets.load_*()
- 获取小规模数据集，数据包含在datasets里
- datasets.fatch_*(data_home=None)
- 获取大规模数据集，从网上下载
- 返回的数据类型是字典格式
  - data ：特征数据数组，是[n_samples,n_feature]的二维np.ndarray数组
  - target：标签数组，是n_samples的一维np.ndarry数组
  - DESCR：数据描述
  - feature_names：特征名,新闻数据，手写数据，回归数据集...没有
  - target_names：标签名

from sklearn.datasets import load_iris
li = load_iris()
print(li.target)

sklearn学习 — 数据集

sklearn数据集

1. 数据集的划分

猜你喜欢

热点阅读