玩转大数据大数据大数据,机器学习,人工智能

如何在impala中计算多个数值字段的相关系数矩阵?

2019-04-09  本文已影响19人  真依然很拉风

如下图。

如何在impala中计算多个数值字段的相关系数矩阵? 如何在impala中计算多个数值字段的相关系数矩阵?

这里有两个问题:

1. hive和spark都有corr函数,impala貌似没有,那怎么计算相关系数?难道只能套公式来计算?

2. hive和spark的corr函数貌似只支持两个字段,怎么计算多个字段的相关系数矩阵?难道要迭代n^2/2次来计算两两相关系数?

如果用PySpark或SparkR,可以在内存撑得住的情况下,把集群数据转化为单机数据,再用单机dataframe下的调包法解决。如果只有impala环境,这个问题该如何解决?是否无解?

上一篇 下一篇

猜你喜欢

热点阅读