pythonPython编程

Python数据科学该如何学习?

2019-08-16  本文已影响4人  60e96c27b6a2

根据人工智能技术评论,最有抱负的数据科学家开始通过为开发人员学习编程课程来理解python,他们也开始解决类似leetcode站点的python编程问题。他们认为,在开始使用python分析数据之前,您必须熟悉编程概念。

image

高级数据分析师ManuJeevan认为这是一个巨大的错误,因为数据科学家使用Python来检索、清理、可视化和建模数据,而不是开发软件应用程序。实际上,为了完成这些任务,您必须将大部分时间集中在Python中的模块和库上。他认为,学习数据科学的正确姿态应该如下,对雷锋的《人工智能科技评论》进行整理整理整理。

image

按照以下步骤学习python。

配置编程环境

Jupyter笔记本是开发和显示数据科学项目的强大编程环境。

在计算机上安装木星笔记本最简单的方法是通过Anaconda安装它。蟒蛇是数据科学中使用最广泛的python工具,它可以预先加载所有最流行的库。

您可以浏览名为“使用Anaconda发行版安装木星笔记本的初学者指南”的博客文章,以了解如何安装Anaconda。安装水蟒时,请选择最新版本的python 3。

安装Anaconda之后,阅读代码学院的这篇文章,了解如何使用木星笔记本。

只学习 python 的基础知识

代码学院有一门关于Python的优秀课程,大约需要20个小时才能完成。您不必升级到专业版,因为您的目标是熟悉python编程语言的基础知识。

numpy和pandas,优秀的学习资源

在处理计算复杂度大、数据量大的算法时,python速度很慢。您可能会问,为什么Python是数据科学中最流行的编程语言?

答案是,在python中,很容易以C或Fortran扩展的形式将数字处理任务转移到底层。这就是努比和熊猫所做的。

首先,你应该学习NumPy。它是用python进行科学计算最基本的模块。NumPy支持高度优化的多维数组,这是大多数机器学习算法中最基本的数据结构。

接下来,你应该学习熊猫。数据科学家们大部分时间都在清理数据,也就是所谓的数据整合。

熊猫是操作数据最流行的python库。熊猫是NumPy的延伸。numpy库在熊猫的底层代码中被广泛使用。PADAS的主要数据结构称为数据帧。

熊猫的创造者韦斯·麦金尼写了一本伟大的书,叫做《数据分析用的巨蟒》。在书的第4章、第5章、第7章、第8章和第10章中,你可以了解Pandas和NumPy。这些章节涵盖了处理数据最常用的numpy和pandas功能。

学习使用Matplotlib可视化数据

Matplotlib是用于创建基本视觉图形的基本python包。您必须学习如何使用Matplotlib创建一些最常见的图表,如断线图、条形图、散点图、列和方框图。

另一个建立在Matplotlib上并与大熊猫紧密结合的优秀绘画图书馆是Seaborn。在这个阶段,我建议您快速学习如何在Matplotlib中创建基本图表,而不是专注于Seborn。

我写了一个关于如何使用matplotlib开发基本地图的四部分教程。

第1部分:Matplotlib绘图基础图第2部分:如何控制图形的样式和颜色,如标签、线条厚度、线条图案和使用颜色映射第3部分:注释、控制轴向范围、纵横比和坐标系第4部分:处理复杂的图形,通过这些教程可以掌握Matplotlib的基本知识。

简而言之,你不必花太多时间学习matplotlib,因为现在公司已经开始使用Tableau和Qlik等工具来创建交互式可视化。

如何使用 SQL 和 python

数据以有组织的方式驻留在数据库中。因此,您需要知道如何使用SQL检索数据,以及如何使用Python在Jupyter笔记本中执行分析。

数据科学家使用SQL和Pandas来操纵数据。有些数据操作任务可以使用SQL轻松执行,有些任务可以使用PANDA高效完成。就我个人而言,我喜欢使用SQL来检索数据并在熊猫中操作。

今天,公司使用分析平台,如Mode Analytics和Databricks来轻松地使用python和SQL。

所以您应该知道如何有效地同时使用SQL和Python。要理解这一点,您可以在计算机上安装SQLite数据库,在其中存储一个CSV文件,然后使用python和SQL对其进行分析。

下面是一篇精彩的博客文章,向您展示了如何做到这一点:使用sqlite在python中使用数据库进行编程。

在浏览上述博客文章之前,您应该了解SQL的基本知识。有一个关于模式分析的关于SQL的很好的教程:SQL简介。通过它们的基本SQL部分,我们可以了解SQL的基本知识,每个数据科学家都应该知道如何使用SQL有效地检索数据。

学习有关python的基本统计知识

大多数有抱负的数据科学家直接跳到机器学习,而不学习统计的基础知识。

不要犯这个错误,因为统计是数据科学的支柱。此外,许多数据科学家学习统计学只是为了学习理论概念,而不是学习实际概念。

我的意思是,通过实践概念,你应该知道什么问题可以通过统计来解决,什么挑战可以通过统计来解决。

以下是你应该了解的一些基本统计概念:

抽样、频率分布、均值、中位数、模式、变异测度、概率基础、显着性检验、标准差、z评分、置信区间和假设检验(包括A/B检验)。

为了学习这些知识,有一本好书要读:数据科学家的实用统计:50个基本概念。不幸的是,本书中的代码示例是用R编写的,但是许多人,包括我自己,都使用Python。

我建议你读这本书的前四章。阅读本书的前四章,了解我前面提到的基本统计概念,您可以忽略代码示例,只了解它们。书的其余部分集中在机器学习上。我将在下一节讨论如何学习机器学习。

大多数人建议使用think stats来学习python的统计知识,但本书的作者教授自己的自定义函数,而不是使用标准的python库来解释统计知识。因此,我不推荐这本书。

接下来,您的目标是实现在Python中学习到的基本概念。StatsModels是一个流行的python库,用于在python中构建统计模型。StatsModels网站提供了有关如何使用Python实现统计概念的优秀教程。

或者你可以看Gal Varoquaux的视频。他向您展示了如何使用Pandas和统计模型进行推理和探索性统计。

使用SciKit学习机器

Scikit-Learning是Python中最流行的机器学习库之一。您的目标是学习如何使用SciKit学习来实现一些最常见的机器学习算法。

你应该像下面这样做。

首先,观看吴家富在Coursera上的机器学习课程的1、2、3、6、7和8视频。我跳过了关于神经网络的部分,因为作为一个初学者,你必须关注最常见的机器学习技术。

When you're done, read the Manual Machine Learning and Science Kit-Learning and Tansoflow.你只需要浏览这本书的第一部分(大约300页),这是最实用的机器学习书籍之一。

通过完成本书中的编码练习,您将学习如何使用python来实现您在AndrewNg课程中学到的理论概念。

结论

最后一步是完成一个涵盖上述所有步骤的数据科学项目。您可以找到您最喜欢的数据集,询问有趣的业务问题,并通过分析回答它们。但是,请不要选择像泰坦尼克号这样的通用数据集。您可以阅读“为您自己准备的”19个静音和免费数据集“,以找到合适的数据集。

另一种方法是将数据科学应用到您感兴趣的领域。例如,如果您想预测股票市场价格,可以从YahooFinance获得实时数据,将其存储在SQL数据库中,然后使用机器学习来预测股价。

如果您想从其他行业转向数据科学,我建议您完成一个利用您的领域专业知识的项目。

上一篇 下一篇

猜你喜欢

热点阅读