用 Python 做数据分析(3)
写在前面
我已经写了三篇主题文章,今天这篇文章是一个节点,其意味着我们将完整地使用 Python 做了一次数据分析工作。在此节点之前,文章涉及的代码不多,主要是解决「非程序员」刚开始接触写程序的时候的不知所措的问题。
其实,我的解决方案很简单,就是帮助你选择一个非常小的切入点,尝试一个小却完整的写代码体验,这种方式同样适用于创业。当你有一个宏大的项目却不知道如何下手时,那就去做一个 Demo,也就是最小可行性方案,当你完整地把 Demo 做一遍,你就会对整体项目有一个更真实的认识,如果最小可行性方案做到了预期的效果,验证了自己的想法是可行的,然后再去逐步扩展,或是引入 VC (风险投资),野蛮生长。
做任何事情都是一样,写代码也是如此,立马尝试,是最难能可贵的选择。
梳理一下思路
第一篇文章,我们安装了 Anaconda,有了写程序的地方。
第二篇文章,我们导入了数据文件,有了可以用程序分析的数据。
第三篇文章,我们简单地处理一下数据,有了一个我们想要的数据结果。
今天这篇文章,我们要把处理好的数据转换成一个直观的方式,把数据变成图片。
数据转换成图片
把数据转换成图片,用一个可以看似专业的词描述就是,「数据的可视化」。将数据可视化,也是需要一个工具的,这个工具在一个叫做 pylab 的工具包里面。
所以第一步我们去问 Anaconda 要这个工具包,程序是这样的
import pylab as pl
就像之前我们问 Anaconda 要 pandas 工具包一样,所以上面这行代码是什么意思我就不解释了,之前也把语法讲过了,今天用到的语法(句型)和从前一样,就不赘述了,如有需要查看前面文章即可。
回顾一下上一次的数据
成绩单现在我们要把每个人的成绩画出来,做成一个折线图,怎么做呢?上代码
a=data.marks
把成绩这一列拿出来,取个名字叫做 a。
成绩曲线pl.plot(a)
因为数据比较少,只有四个人的成绩,所以看起来不是那么震撼,你可以多弄几个人试试。
然后解释一下这行代码, pl 是刚刚到手的的工具包,里面有一个工具叫做 plot,就是用来画图的啦,然后里面怎么画,就看括号里的状语来补充说明。a 是刚才从表格里取出来的一列数据,要画的就是这串数字了。
这样就画好了,有没有很简单!其实,为什么写程序的自嘲称自己是码农?就是写代码真的是一件看似没那么复杂的事情,就像农民工修房子一样,搬点砖而已。当然,实际上要做好程序员这份工作远远没有这么简单。
点划线pl.plot(a,'-.')
要想把直线换成点划线,只需要在后面再加一个状语说明即可。另外还可以给图线换颜色,代码就在截图里,自己观察哈。
代码见图关于数据处理也好,数据可视化处理也好,甚至导入数据的方式,其实是远比我文章里写的要复杂的,比如到导入数据,我们可以用「网页爬虫」的形式获取网上的数据。
通过四篇文章,我们就可以说是用 Python 完整地做了一次数据分析的工作了。也非常清晰地把数据分析分成了三大模块。接下来的文章,我会在每一个模块里面全面地介绍每一个知识点,这就到了我们增加 Python 这门语言的词汇量的时候了。
明白了吗?学编程语言和学习一门外语,背后的逻辑是一样,甚至因为机器的死板和不能说话,让我们省去了考虑语言场景和口语两部分的内容,比学一门外语,是要简单许多的。