sklearn学习 — 数据集
2020-01-29 本文已影响0人
_aLIEz
sklearn数据集
1. 数据集的划分
- 训练集 : (占数据集比重高) 用于训练,构建模型
- 测试集 : 在模型评估时使用,检验评估模型是否有效
训练集 | 测试集 |
---|---|
建立模型 | 评估模型 |
75%~ | ~25% |
sklearn数据集划分api :sklearm.model_selection_train_test_split
* sklearm.model_selection_train_test_split(arrays,*option)
* x:数据集的特征值
* y:数据集的标签值
* test_size :测试集的大小,一般为float
* random_stata :随机数种子
* return :训练集特征值,测试集测试值,训练集标签,测试值标签(默认随机)
from sklearn.model_selection import train_test_split
li = load_iris()
'''x_train , y_train , x_test , y_test'''
x_train , y_train , x_test , y_test = train_test_split(li.data,li.target,test_size=0.25)
print("训练集的特征值和目标值:",x_train,y_train)
print("训练集的特征值和目标值:",x_test,y_test)
- sklearn.datasets
- 加载获取流行数据集
- datasets.load_*()
- 获取小规模数据集,数据包含在datasets里
- datasets.fatch_*(data_home=None)
- 获取大规模数据集,从网上下载
- 返回的数据类型是字典格式
- data : 特征数据数组,是[n_samples,n_feature]的二维np.ndarray数组
- target:标签数组,是n_samples的一维np.ndarry数组
- DESCR:数据描述
- feature_names:特征名,新闻数据,手写数据,回归数据集...没有
- target_names:标签名
from sklearn.datasets import load_iris
li = load_iris()
print(li.target)