Python数据可视化

数据分析之pandas-profiling一行代码生成超详细数据

2020-02-26  本文已影响0人  老王叔叔

最大的作用可能就是数据处理前,观察了解一下数据结构。

1. 安装pandas-profiling

pip install pandas-profiling

2. 使用pandas-profiling

先导入需要的包

import pandas as pd
import pandas_profiling

读取数据并生成报告

这里以泰坦尼克数据集为例,调用profile_report方法生成EDA分析报告
没有数据集?【这里下载!

data = pd.read_excel('titanic.xlsx')
jupyter查看报告
pandas_profiling.ProfileReport(data)
也可以使用to_file方法另存为.html文件
profile = data.profile_report(title="Titanic_data")
profile.to_file(output_file="c:\\Titanic_data.html")

3. 查看报告

上面简单几步就可以搞定啦,现在我们来看下生成的报告

可以看出报告大体由5部分组成,分别是

  1. 数据集概况(基本信息)

变量数(列)、观察数(行)、数据缺失率、内存;
数据类型的分布情况

  1. 每个变量的详细情况

要点:类型,唯一值,缺失值
分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度

  1. 相关性分析
  2. 缺失值情况
  3. 样本信息
    具体就不再一一列出,下面是报告里的一些图片,少量的代码就可以获取如此多的的信息,非常好用。


    titanic.png
上一篇 下一篇

猜你喜欢

热点阅读