机器学习与深度学习

15、如何为机器学习准备数据

2019-02-23  本文已影响26人  攻城狮笔记

机器学习算法从数据中学习。您需要为要解决的问题提供正确的数据至关重要。即使您拥有良好的数据,也需要确保它具有有用的规模,格式,甚至包含有意义的功能。

在这篇文章中,您将学习如何为机器学习算法准备数据。这是一个很大的主题,您将涵盖必需品。

image.png

很多数据
照片归功于cibomahto,保留了一些权利

数据准备过程

您处理数据的纪律越严格,您可能会获得更一致和更好的结果。为机器学习算法准备数据的过程可以分为三个步骤:

您可以以线性方式遵循此过程,但很可能是使用多个循环进行迭代。

第1步:选择数据

此步骤涉及选择要使用的所有可用数据的子集。总是强烈希望包含所有可用的数据,“更多更好”的格言将成立。这可能是也可能不是。

您需要考虑实际需要哪些数据来解决您正在处理的问题。对您需要的数据做一些假设,并小心记录这些假设,以便您可以在以后需要时进行测试。

以下是一些有助于您思考此过程的问题:

它只是在小问题中,比如已经为您选择了数据的竞赛或玩具数据集。

第2步:预处理数据

选择数据后,您需要考虑如何使用数据。此预处理步骤是将所选数据转换为可以使用的表单。

三个常见的数据预处理步骤是格式化,清理和采样:

您在数据上使用的机器学习工具很可能会影响您需要执行的预处理。您可能会重新访问此步骤。

这么多数据

如此多的数据
Photo归功于Marc_Smith,保留了一些权利

第3步:转换数据

最后一步是转换过程数据。您正在使用的特定算法和问题域的知识将影响此步骤,当您处理问题时,您很可能不得不重新审视预处理数据的不同转换。

三种常见的数据转换是缩放,属性分解和属性聚合。此步骤也称为特征工程。

您可以花费大量时间从数据中获取工程特性,这对算法的性能非常有益。从小做起,以你学到的技能为基础。

摘要

在这篇文章中,您了解了机器学习数据准备的本质。您在每个步骤中发现了数据准备和策略的三步框架:

数据准备是一个很大的主题,可能涉及大量的迭代,探索和分析。擅长数据准备将使您成为机器学习的大师。目前,在准备数据时只考虑本文中提出的问题,并始终寻找更清晰的方式来表示您试图解决的问题。

资源

如果您希望深入了解此主题,可以在以下资源中了解更多信息。

上一篇下一篇

猜你喜欢

热点阅读