sklearn-2.用pandas导入数据

2018-06-26 本文已影响0人 ddm2014

导入数据分为导入sklearn自带数据和导入自己的数据。导入数据主要是要把feature（x）和标签（y）分开。

1.自带的数据。
sklearn自带一些小型datasets，见文档说明。文档数据库说明
比如

image.png
这种导入就是

from sklearn import datasets

iris = datasets.load_iris()
data_x = iris.data
data_y = iris.target
print(data_x)
print(data_y)

data_x是特征，data_y是标签。

2.自己的数据
一般我会用pandas和numpy辅助，我是先用excel收集数据，大概长这个样子。

image.png

用pandas读取之后长这样。

import pandas as pd
import numpy as np

dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
print(dataset.head())

image.png

然后分离data和label

import pandas as pd
import numpy as np

dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')

col = dataset.columns.values.tolist()
col1 =col[2:-1]
data_x = np.array(dataset[col1])
data_y = dataset['label22']

这就是导入数据了。

sklearn-2.用pandas导入数据

猜你喜欢

热点阅读