【数据分析】-007-数据预处理-Python主要数据预处理函数

2020-02-17  本文已影响0人  张雅琛

Python主要数据预处理函数

要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。

函数名 函数功能 所属扩展库
interpolate 一维、高维数据插值 Scipy
unique 去除数据中的重复元素,得到单值元素列表,它是对象的方法名 Pandas/Numpy
isnull 判断是否空值 Pandas
notnull 判断是否非空值 Pandas
PCA 对指标变量矩阵进行主成分分析 Scikit-Leam
random 生成随机矩阵 Numpy

(1) interpolate

(2) unique

import pandas as pd
import numpy as np
D=pd.Series([1,1,2,3,5])
print(D.unique())
print(np.unique(D))

[1 2 3 5]
[1 2 3 5]

(3)isnull/ notnull

(4) random

(5)PCA

from sklearn.decomposition import PCA
D = np. random. rand (10,4)
pca = PCA()
pca. fit (D)
print("模型的各个特征向量:")
print(pca.components_) #返回模型的各个特征向量
print("各个成分各自的方差百分比:")
print(pca.explained_variance_ratio_)  #返回各个成分各自的方差百分比

小结

数据预处理的4个主要任务:数据清洗、数据集成、数据变换和数据规约。

通过对原始数据进行相应的处理,将为后续挖掘建模提供良好的数据基础。

上一篇 下一篇

猜你喜欢

热点阅读