Python中文社区python机器学习爬虫人工智能/模式识别/机器学习精华专题

sklearn学习 — 数据集

2020-01-29  本文已影响0人  _aLIEz

sklearn数据集

1. 数据集的划分

  1. 训练集 : (占数据集比重高) 用于训练,构建模型
  2. 测试集 : 在模型评估时使用,检验评估模型是否有效
训练集 测试集
建立模型 评估模型
75%~ ~25%

sklearn数据集划分api :sklearm.model_selection_train_test_split
* sklearm.model_selection_train_test_split(arrays,*option)
* x:数据集的特征值
* y:数据集的标签值
* test_size :测试集的大小,一般为float
* random_stata :随机数种子
* return :训练集特征值,测试集测试值,训练集标签,测试值标签(默认随机)

from sklearn.model_selection import train_test_split
li = load_iris()
'''x_train , y_train , x_test , y_test'''
x_train , y_train , x_test , y_test = train_test_split(li.data,li.target,test_size=0.25)
print("训练集的特征值和目标值:",x_train,y_train)
print("训练集的特征值和目标值:",x_test,y_test)    
from sklearn.datasets import load_iris
li = load_iris()
print(li.target)
上一篇下一篇

猜你喜欢

热点阅读