pyspark 保序回归

2021-08-26  本文已影响0人  米斯特芳

保序回归

也称单调回归。按百度定义:保序回归在观念上是寻找一组非递减的片段连续线性函数(piecewise linear continuous functions),即保序函数,使其与样本尽可能的接近。
在计算中,保序回归是一个二次规划问题,即寻找一组保序函数是其对样本的估计值与样本的真实值间的离差平方和达到最小。
给定样本Y序列,需要求得回归后序列Y'
最小化下式:
\sum_{i=1}^N w_i(Y'_i-Y_i)^2
并且w_i>0,Y'_1<=Y'_2<=...<=Y'_N
保序回归可以在有足量样本的支持下对分类器进行校准,并因此被应用于广告排序,质量控制等现实问题。
参考一篇文章:https://zhuanlan.zhihu.com/p/88623159

from pyspark.ml.regression import IsotonicRegression
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("IsotonicRegressionExample")\
    .getOrCreate()

dataset = spark.read.format("libsvm")\
    .load("sample_isotonic_regression_libsvm_data.txt")
model = IsotonicRegression().fit(dataset)
print("Boundaries in increasing order: %s\n" % str(model.boundaries))
print("Predictions associated with the boundaries: %s\n" % str(model.predictions))
model.transform(dataset).show()
上一篇下一篇

猜你喜欢

热点阅读