scikit-learn系列之如何导入数据

2017-02-20 本文已影响2454人 coolspider2015

如何导入数据

这是我关于scikit-learn学习系列的第一篇博客，这个系列的主要目的是跟随著名博主Jason Brownlee的博客machinelearningmastery，学习机器学习算法和相关实现。

开篇很简单，学习两种数据导入方法：一种是导入scikit-learn内置的数据集。另外一种是导入本地的或者网络上的数据集。

第一种方法，使用load_*方法导入scikit-learn数据集，可以用于回归或者分类算法的实验。代码如下：

from sklearn.datasets import load_iris
iris = load_iris()
print(iris)

第二种方法，使用到urllib和numpy包，下从网络上获取原始数据，在把数据load进来，编程numpy的数据结构，分割自变量和因变量。代码实现如下：

import numpy as np
import urllib
data_link = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
raw_data = urllib.urlopen(data_link)
data = np.loadtxt(raw_data,delimiter=",")
print(data.shape)
x = data[:,0:7]
y = data[:,8]
print x,y

学习到的知识点：

sklearn.datasets.load_iris()导入sklearn内置数据集。
urllib.urlopen(link)获取网络数据
numpy.loadtxt()导入text数据

原文链接：How to Load Data in Python with Scikit-Learn

scikit-learn系列之如何导入数据

猜你喜欢

热点阅读