数据分析之pandas-profiling一行代码生成超详细数据

2020-02-26 本文已影响0人老王叔叔

最大的作用可能就是数据处理前，观察了解一下数据结构。

1. 安装pandas-profiling

pip install pandas-profiling

先导入需要的包

import pandas as pd
import pandas_profiling

读取数据并生成报告

这里以泰坦尼克数据集为例，调用profile_report方法生成EDA分析报告
没有数据集？【这里下载！】

data = pd.read_excel('titanic.xlsx')

pandas_profiling.ProfileReport(data)

profile = data.profile_report(title="Titanic_data")
profile.to_file(output_file="c:\\Titanic_data.html")

上面简单几步就可以搞定啦，现在我们来看下生成的报告

可以看出报告大体由5部分组成，分别是

变量数(列)、观察数(行)、数据缺失率、内存；
数据类型的分布情况

要点：类型，唯一值，缺失值
分位数统计量，如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据，如均值，模式，标准差，总和，中位数绝对偏差，变异系数，峰度，偏度