Python数据科学该如何学习？

2019-08-16 本文已影响4人 60e96c27b6a2

根据人工智能技术评论，最有抱负的数据科学家开始通过为开发人员学习编程课程来理解python，他们也开始解决类似leetcode站点的python编程问题。他们认为，在开始使用python分析数据之前，您必须熟悉编程概念。

image

高级数据分析师ManuJeevan认为这是一个巨大的错误，因为数据科学家使用Python来检索、清理、可视化和建模数据，而不是开发软件应用程序。实际上，为了完成这些任务，您必须将大部分时间集中在Python中的模块和库上。他认为，学习数据科学的正确姿态应该如下，对雷锋的《人工智能科技评论》进行整理整理整理。

image

按照以下步骤学习python。

配置编程环境

Jupyter笔记本是开发和显示数据科学项目的强大编程环境。

在计算机上安装木星笔记本最简单的方法是通过Anaconda安装它。蟒蛇是数据科学中使用最广泛的python工具，它可以预先加载所有最流行的库。

您可以浏览名为“使用Anaconda发行版安装木星笔记本的初学者指南”的博客文章，以了解如何安装Anaconda。安装水蟒时，请选择最新版本的python 3。

安装Anaconda之后，阅读代码学院的这篇文章，了解如何使用木星笔记本。

只学习 python 的基础知识

代码学院有一门关于Python的优秀课程，大约需要20个小时才能完成。您不必升级到专业版，因为您的目标是熟悉python编程语言的基础知识。

numpy和pandas，优秀的学习资源

在处理计算复杂度大、数据量大的算法时，python速度很慢。您可能会问，为什么Python是数据科学中最流行的编程语言？

答案是，在python中，很容易以C或Fortran扩展的形式将数字处理任务转移到底层。这就是努比和熊猫所做的。

首先，你应该学习NumPy。它是用python进行科学计算最基本的模块。NumPy支持高度优化的多维数组，这是大多数机器学习算法中最基本的数据结构。

接下来，你应该学习熊猫。数据科学家们大部分时间都在清理数据，也就是所谓的数据整合。

熊猫是操作数据最流行的python库。熊猫是NumPy的延伸。numpy库在熊猫的底层代码中被广泛使用。PADAS的主要数据结构称为数据帧。

熊猫的创造者韦斯·麦金尼写了一本伟大的书，叫做《数据分析用的巨蟒》。在书的第4章、第5章、第7章、第8章和第10章中，你可以了解Pandas和NumPy。这些章节涵盖了处理数据最常用的numpy和pandas功能。

学习使用Matplotlib可视化数据

Matplotlib是用于创建基本视觉图形的基本python包。您必须学习如何使用Matplotlib创建一些最常见的图表，如断线图、条形图、散点图、列和方框图。

另一个建立在Matplotlib上并与大熊猫紧密结合的优秀绘画图书馆是Seaborn。在这个阶段，我建议您快速学习如何在Matplotlib中创建基本图表，而不是专注于Seborn。

我写了一个关于如何使用matplotlib开发基本地图的四部分教程。

第1部分：Matplotlib绘图基础图第2部分：如何控制图形的样式和颜色，如标签、线条厚度、线条图案和使用颜色映射第3部分：注释、控制轴向范围、纵横比和坐标系第4部分：处理复杂的图形，通过这些教程可以掌握Matplotlib的基本知识。

简而言之，你不必花太多时间学习matplotlib，因为现在公司已经开始使用Tableau和Qlik等工具来创建交互式可视化。

如何使用 SQL 和 python

数据以有组织的方式驻留在数据库中。因此，您需要知道如何使用SQL检索数据，以及如何使用Python在Jupyter笔记本中执行分析。

数据科学家使用SQL和Pandas来操纵数据。有些数据操作任务可以使用SQL轻松执行，有些任务可以使用PANDA高效完成。就我个人而言，我喜欢使用SQL来检索数据并在熊猫中操作。

今天，公司使用分析平台，如Mode Analytics和Databricks来轻松地使用python和SQL。

所以您应该知道如何有效地同时使用SQL和Python。要理解这一点，您可以在计算机上安装SQLite数据库，在其中存储一个CSV文件，然后使用python和SQL对其进行分析。

下面是一篇精彩的博客文章，向您展示了如何做到这一点：使用sqlite在python中使用数据库进行编程。

在浏览上述博客文章之前，您应该了解SQL的基本知识。有一个关于模式分析的关于SQL的很好的教程：SQL简介。通过它们的基本SQL部分，我们可以了解SQL的基本知识，每个数据科学家都应该知道如何使用SQL有效地检索数据。

学习有关python的基本统计知识

大多数有抱负的数据科学家直接跳到机器学习，而不学习统计的基础知识。

不要犯这个错误，因为统计是数据科学的支柱。此外，许多数据科学家学习统计学只是为了学习理论概念，而不是学习实际概念。

我的意思是，通过实践概念，你应该知道什么问题可以通过统计来解决，什么挑战可以通过统计来解决。

以下是你应该了解的一些基本统计概念：

抽样、频率分布、均值、中位数、模式、变异测度、概率基础、显着性检验、标准差、z评分、置信区间和假设检验(包括A/B检验)。

为了学习这些知识，有一本好书要读：数据科学家的实用统计：50个基本概念。不幸的是，本书中的代码示例是用R编写的，但是许多人，包括我自己，都使用Python。

我建议你读这本书的前四章。阅读本书的前四章，了解我前面提到的基本统计概念，您可以忽略代码示例，只了解它们。书的其余部分集中在机器学习上。我将在下一节讨论如何学习机器学习。

大多数人建议使用think stats来学习python的统计知识，但本书的作者教授自己的自定义函数，而不是使用标准的python库来解释统计知识。因此，我不推荐这本书。

接下来，您的目标是实现在Python中学习到的基本概念。StatsModels是一个流行的python库，用于在python中构建统计模型。StatsModels网站提供了有关如何使用Python实现统计概念的优秀教程。

或者你可以看Gal Varoquaux的视频。他向您展示了如何使用Pandas和统计模型进行推理和探索性统计。

使用SciKit学习机器

Scikit-Learning是Python中最流行的机器学习库之一。您的目标是学习如何使用SciKit学习来实现一些最常见的机器学习算法。

你应该像下面这样做。

首先，观看吴家富在Coursera上的机器学习课程的1、2、3、6、7和8视频。我跳过了关于神经网络的部分，因为作为一个初学者，你必须关注最常见的机器学习技术。

When you're done, read the Manual Machine Learning and Science Kit-Learning and Tansoflow.你只需要浏览这本书的第一部分（大约300页），这是最实用的机器学习书籍之一。

通过完成本书中的编码练习，您将学习如何使用python来实现您在AndrewNg课程中学到的理论概念。

结论

最后一步是完成一个涵盖上述所有步骤的数据科学项目。您可以找到您最喜欢的数据集，询问有趣的业务问题，并通过分析回答它们。但是，请不要选择像泰坦尼克号这样的通用数据集。您可以阅读“为您自己准备的”19个静音和免费数据集“，以找到合适的数据集。

另一种方法是将数据科学应用到您感兴趣的领域。例如，如果您想预测股票市场价格，可以从YahooFinance获得实时数据，将其存储在SQL数据库中，然后使用机器学习来预测股价。

如果您想从其他行业转向数据科学，我建议您完成一个利用您的领域专业知识的项目。

Python数据科学该如何学习？

按照以下步骤学习python。

配置编程环境

我写了一个关于如何使用matplotlib开发基本地图的四部分教程。

猜你喜欢

热点阅读