我爱编程

sklearn-2.用pandas导入数据

2018-06-26  本文已影响0人  ddm2014

导入数据分为导入sklearn自带数据和导入自己的数据。导入数据主要是要把feature(x)和标签(y)分开。

1.自带的数据。
sklearn自带一些小型datasets,见文档说明。文档数据库说明
比如

image.png
这种导入就是
from sklearn import datasets

iris = datasets.load_iris()
data_x = iris.data
data_y = iris.target
print(data_x)
print(data_y)

data_x是特征,data_y是标签。

2.自己的数据
一般我会用pandas和numpy辅助,我是先用excel收集数据,大概长这个样子。


image.png

用pandas读取之后长这样。

import pandas as pd
import numpy as np

dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
print(dataset.head())
image.png

然后分离data和label

import pandas as pd
import numpy as np

dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')

col = dataset.columns.values.tolist()
col1 =col[2:-1]
data_x = np.array(dataset[col1])
data_y = dataset['label22']

这就是导入数据了。

上一篇下一篇

猜你喜欢

热点阅读