pyspark空值处理

2021-08-13  本文已影响0人  米斯特芳

类似sklearn中的Inputer

from pyspark.ml.feature import Imputer
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("ImputerExample")\
    .getOrCreate()

df = spark.createDataFrame([
    (1.0, float("nan")),
    (2.0, float("nan")),
    (float("nan"), 3.0),
    (4.0, 4.0),
    (5.0, 5.0)
], ["a", "b"])
# strategy:缺失值填充策略,一般有mean,median等
# missingValue:数据中缺失值用什么表示的,默认float('nan'),也可自定义其他值为缺失值
imputer = Imputer(strategy='mean',missingValue=nan,inputCols=["a", "b"], outputCols=["out_a", "out_b"])
model = imputer.fit(df)

model.transform(df).show()
model.surrogateDF.show()# 显示在strategy策略下,具体使用什么数值填充

上一篇下一篇

猜你喜欢

热点阅读