如何使用 Dask 并行化特征工程,行处理扩展 Featuret

2023-01-25  本文已影响0人  iCloudEnd

当计算速度慢得令人望而却步时,最重要的问题是:“瓶颈是什么?” 知道答案后,合乎逻辑的下一步就是弄清楚如何绕过该瓶颈。

通常,正如我们将看到的,瓶颈是我们没有充分利用我们的硬件资源,例如,当我们的计算机有八个内核时,只在一个内核上运行计算。如果我们的代码不是为了使用我们所有的资源而编写的,那么简单地获得一台更大的机器——就 RAM 或内核而言——并不能解决问题。因此,解决方案是重写代码以尽可能高效地利用我们拥有的任何硬件。

在本文中,我们将了解如何重构我们的自动化特征工程代码以在我们笔记本电脑的所有内核上并行运行,在此过程中将计算时间减少 8 倍以上。我们将使用两个开源库——用于自动化特征工程的Featuretools和用于并行处理的 Dask——并解决真实世界数据集的问题。

我们将结合两项重要技术:Featuretools 中的自动化特征工程和 Dask 中的并行计算。
上一篇下一篇

猜你喜欢

热点阅读