Kaggle 教程2 -- 熟悉数据

2019-02-22  本文已影响0人  TwinIsland

翻译自 Kaggle
翻译 by Wyatt Huang
转载请著名

引子

在上一章节,我们对模型的概念有了一个基础的了解,在这节课中,我们会用一个叫 pandas 的数据处理库,官网:http://pandas.pydata.org 熟悉一下数据

使用 pandas 熟悉你的数据

任何机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。大多数人在他们的代码中将pandas缩写为pd:

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

对于你处理数据的各种需求,pandas 都会有相对于简单的处理办法

例如,我们将查看并处理澳大利亚墨尔本的房价数据

我们使用以下命令加载和浏览数据:

# 数据文件的位置
melbourne_file_path = 'data/melb_data.csv'
# 读取数据
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印数据的简介
melbourne_data.describe()
dataframe

数据简介包含什么

上一篇 下一篇

猜你喜欢

热点阅读