pyspark空值处理
2021-08-13 本文已影响0人
米斯特芳
类似sklearn中的Inputer
from pyspark.ml.feature import Imputer
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("ImputerExample")\
.getOrCreate()
df = spark.createDataFrame([
(1.0, float("nan")),
(2.0, float("nan")),
(float("nan"), 3.0),
(4.0, 4.0),
(5.0, 5.0)
], ["a", "b"])
# strategy:缺失值填充策略,一般有mean,median等
# missingValue:数据中缺失值用什么表示的,默认float('nan'),也可自定义其他值为缺失值
imputer = Imputer(strategy='mean',missingValue=nan,inputCols=["a", "b"], outputCols=["out_a", "out_b"])
model = imputer.fit(df)
model.transform(df).show()
model.surrogateDF.show()# 显示在strategy策略下,具体使用什么数值填充