P3-调查数据集-项目概况
项目概况
在此项目中,您将分析数据集,然后传达有关它的发现。您将使用Python库NumPy,pandas和Matplotlib来简化分析。
我需要安装什么?
您将需要安装Python以及以下库:
* pandas
* NumPy
* Matplotlib
* csv
我们建议安装带有所有必要软件包的Anaconda,以及IPython笔记本电脑。您可以在此处找到安装说明。
为什么这个项目?
在这个项目中,您将完成数据分析过程并查看所有内容是如何组合在一起的。后来的Nanodegree项目将重点关注数据分析过程的各个部分。
您将使用Python库NumPy,pandas和Matplotlib,这使得在Python中编写数据分析代码变得更加容易!不仅如此,这些都是雇主的抢手技巧!
我将学到什么?
完成项目后,您将:
- 了解典型数据分析过程中涉及的所有步骤
- 轻松提出可以使用给定数据集回答的问题,然后回答这些问题
- 知道如何调查数据集中的问题并将数据压缩成可以使用的格式
- 练习沟通分析结果
- 能够在NumPy和pandas中使用矢量化操作来加速数据分析代码
- 熟悉pandas的Series和DataFrame对象,可以更方便地访问数据
- 知道如何使用Matplotlib生成显示您的发现的图
我该如何完成这个项目?
此项目与“ 数据分析简介”课程相关联,但根据您的背景知识,您可能无需参加整个课程来完成此项目。
介绍
对于最终项目,您将进行自己的数据分析并创建一个文件来分享您的发现。您应首先查看数据集并集思广益,使用它来回答哪些问题。然后你应该使用pandas和NumPy来回答你最感兴趣的问题,并创建一个分享答案的报告。您不需要使用推论统计或机器学习来完成此项目,但您应在通信中明确指出您的发现是暂定的。这个项目是开放式的,因为我们没有找到正确的答案。
第一步 - 选择您的数据集
单击此链接可打开一个文档,其中包含您可以为此项目调查的数据集的链接和信息。您必须选择其中一个数据集才能完成项目。
第二步 - 组织起来
最终,您需要提交项目(并与朋友,家人和雇主共享)。在开始之前组织起来。我们建议创建一个最终包含的文件夹:
- 该报告传达你的发现
- 您作为分析的一部分编写的任何Python代码
- 您使用的数据集(您不需要提交)
您可能希望使用Jupyter笔记本,在这种情况下,您可以在同一文档中提交您编写的代码和您的发现报告。否则,您需要单独提交报告和代码。如果您想要一个笔记本模板来帮助组织调查,您可以点击这里。或者项目中可能有一个名为Project Workspace的页面:完成并提交项目,您可以在其中完成所有工作并提交项目。
第三步 - 分析您的数据
使用您选择的数据集头脑风暴您可以回答的一些问题,然后开始回答这些问题。您可以在数据集选项中找到一些问题,以帮助您入门。
尝试并提出可以促进查看多个变量之间关系的问题。您应该在调查中分析至少一个因变量和三个独立变量。确保你在适当的地方使用NumPy和pandas!
第四步 - 分享您的发现
完成数据分析后,创建一个报告,分享您认为最有趣的发现。如果您使用Jupyter笔记本,请与您用于执行分析的代码一起分享您的发现。确保您的报告文本包含在Markdown单元格中,以便清楚地将您的评论和结果与代码工作区分开来。您还可以随意使用其他工具和软件来制作最终报告,但请确保您可以将报告作为HTML或PDF文件提交,以便轻松打开。
第五步 - 回顾
使用项目规则来审核您的项目。如果您对提交内容感到满意,那么您已准备好提交项目。如果您有改进的余地,请继续努力改进您的项目!