pyspark空值处理

2021-08-13 本文已影响0人米斯特芳

类似sklearn中的Inputer

from pyspark.ml.feature import Imputer
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("ImputerExample")\
    .getOrCreate()

df = spark.createDataFrame([
    (1.0, float("nan")),
    (2.0, float("nan")),
    (float("nan"), 3.0),
    (4.0, 4.0),
    (5.0, 5.0)
], ["a", "b"])
# strategy：缺失值填充策略，一般有mean，median等
# missingValue：数据中缺失值用什么表示的，默认float('nan')，也可自定义其他值为缺失值
imputer = Imputer(strategy='mean',missingValue=nan,inputCols=["a", "b"], outputCols=["out_a", "out_b"])
model = imputer.fit(df)

model.transform(df).show()
model.surrogateDF.show()# 显示在strategy策略下，具体使用什么数值填充

pyspark空值处理

猜你喜欢

热点阅读