pyspark.sql.Window

2020-03-30  本文已影响0人  cassie_xs

11. class pyspark.sql.Window

用于在DataFrame中定义窗口的实用函数。

window=Window.partitionBy("country").orderBy("date").rowsBetween(-sys.maxsize,0)

11.1 static orderBy(*cols)

用定义的顺序创建一个WindowSpec。

11.2 static partitionBy(*cols)

用定义的分区创建一个WindowSpec。

In [426]: from pyspark.sql.window import Window

In [427]:  w =  Window.partitionBy(df.name).orderBy(df.age)

11. class pyspark.sql.WindowSpec(jspec)

定义分区,排序和框边界的窗口规范。

使用Window中的静态方法创建一个WindowSpec

11.3 orderBy(*cols)

定义WindowSpec中的排序列。

参数:● cols – 列或表达式的名称

11.4 partitionBy(*cols)

定义WindowSpec中的分区列。

参数:● cols – 列或表达式的名称

11.5 rangeBetween(start, end)

定义从开始(包含)到结束(包含)的框边界。

start, end都是相对于当前行。 例如,“0”表示“当前行”,而“-1”表示在当前行之前一次,“5”表示当前行之后五次关闭。

参数:●start – 开始边界(包括)。 如果这是-sys.maxsize(或更低),则该框架是无限的。

           ● end – 结束边界(包括)。如果这是sys.maxsize(或更高),则该框架是无限的。

11.6 rowsBetween(start, end)

定义从开始(包含)到结束(包含)的框边界。

start, end都是相对于当前行。 例如,“0”表示“当前行”,而“-1”表示在当前行之前一次,“5”表示当前行之后五次关闭。

参数:●start – 开始边界(包括)。 如果这是-sys.maxsize(或更低),则该框架是无限的。

            ● end – 结束边界(包括)。如果这是sys.maxsize(或更高),则该框架是无限的。

上一篇下一篇

猜你喜欢

热点阅读