Python数据处理(一)

2019-07-16  本文已影响0人  司马山哥

1缺失值处理

# 分行列删除全是缺失
train = train.dropna(how="all",axis=1) 
train = train.dropna(how="all",axis=0)

# 通过dataframe的columns筛选非空数据
df[df['Column'].notna()]

2数据描述统计

涉及数据的相关性、缺失性、取值分布统计、头尾数据展示、热力图可视化。

prf = pandas_profiling.ProfileReport(df)
prf.to_file(file_path+'example.html')

3 数据集打乱

import numpy
import random
random.shuffle(data)  # 随机打乱
"""
数据打乱存在如下问题:
1 data属于numpy的array数组类型
2 会将数组的所有元素打乱,dataframe数据源会有异常
"""
上一篇下一篇

猜你喜欢

热点阅读