猴子聊知识

今晚直播 | 我如何自学大数据神器让薪水翻倍

2017-06-14  本文已影响39人  猴子数据分析

我是大数据社群会员冷冰,上周我和猴子发起了《知识众筹第4期:投资分红 开始报名》,有1325人参与提问。根据用户投票我选出了大家最关心的5个问题进行了回答。

冷冰:在说明“相关关系”和“因果关系”的区别之前,我先举个例子:

上面的假新闻中,我们看到吃猪肉和自爆是相关性,而不是新闻中的因果关系。

那么,究竟什么是因果关系呢?

在一个科学研究中,如果证明了A和B有关系(在具有统计学显著意义的基础上),进一步按这个关系“铁”的程度,从弱到强可以分为3种关系:

1)相关关系 -> 2)预测关系 ->  3)因果关系

最弱的就是相关关系,即A和B有关系。如何一眼识别相关关系呢?新闻报道中对相关关系的报道通常是这样的:A在某种程度上和B有关

如果A先发生,B后发生,就可以进一步推出由A可以预测B,即预测关系。

如果这个预测相关性特别强,而且可以排除其他可能会产生干扰的影响因素,才能证明是A导致了B,即因果关系。新闻报道中对相关关系的报道通常是这样的:你A就是直接导致了人家B

因果关系是最强的,也是最严格的。如果一个研究成果声称他们取得了因果关系的证明并成立的话,一般是可以作为高质量的论文在顶尖杂志上发表的。

所以,你平日在看新闻或者数据报告时,要特别注意区分这3种关系。判断这3种关系有个窍门:

1)如果是相关相关性,可以说“有关系”、“正/负相关”

2)如果是预测关系,则是“可以预测”、“产生影响”

3)如果是因果关系,才能用“导致”、“决定”、“推出”、“造成”这样的字眼。

让我们再来看几个现在很多标题党的新闻是如何利用“相关关系”偷换成“因果关系”来骗你的:

睡眠时间越短的人,收入越高(愚昧,那岂不是我以后不睡觉就能发财了)

相貌越好看,越不容易生病(那要医院干啥,为啥都不开成整容所得了)

打篮球的人,个子长得高(醒醒吧,人家是因为个子高才选择打篮球的)

游泳溺亡的人越多,雪糕卖的越好(算了吧,那是因为天热)

这以上的每一个例子都不存在因果关系,哪怕有些看起来合情合理。所以平日看新闻,一定要留意这些夸大其词的骗子。当然,如果你有能学点统计学知识就能用知识打败这个世界了。

冷冰:Hadoop适用大数据量的非实时响应的数据处理,运行、扩容成本低,几台普通电脑就可以啦。

Hadoop的缺点是不适合低延迟的数据访问,大量的小文件处理和多次写入或更新的文件。

从零基础学习Hadoop呢?

Hadoop一般有运维岗和开发岗。对于运维岗要求你对Linux系统比较熟悉,会写脚本,主要负责系统的扩容、调优、升级。开发岗自然就要求有一定的开发经验,一般要求会一门编程语言。

想学习Hadoop工作的朋友建议先学习一下编程、Linux,不需要精通。可以搭建运行环境,然后再进一步的深入了解。

冷冰:学习内容的选择主要看工作的需求,现在常用的数据分析工具有:Excel,R语言,Python语言,Hadoop。各个知识大概了解做到用的时候知道每个能干什么,不能干什么,有时候见识很重要。然后选中专攻一个方向成为领域高手。

你可能会问学会了Excel数据分析,还要编程语言(R和Python)的数据分析干啥鸟用?下面这个社群会员的问题回答了你的疑惑:

冷冰:SQL是查询数据的语言。R和Python是目前做数据分析最火的两个编程语言。Spark和hadoop属于大数据处理的框架工具。Spark擅长实时数据处理,Hadoop擅长离线大数据处理。

冷冰:首先解释下,什么是量化交易?

说白了,量化交易就是大数据+金融的应用。美国著名金融作家MichaelLewis的一本《FlashBoys》写到美国股市绝大多数交易都是由程序机器人自动完成的而不是人来完成,自动交易的份额已经占到了股市交易总量的70%,

让我们一起通过下面这个漫画视频了解下什么是量化交易。

Hadoop在量化交易中起什么作用呢?Hadoop可对数据进行前期的加工,为量化交易提供初识数据。

当然,还有朋友留言对下面问题感兴趣:

这些问题我都会在今晚的直播中详细回答。知识分享的内容包括:

1、我是如何通过自学Hadoop使得薪水翻倍的?

2、hadoop到底是个什么鬼?

3、hadoop使用案例

4、零基础如何从入门到深入的学习hadoop

我是冷冰虽然毕业于上海一所普通的学校,但是通过自学Hadoop使得薪水翻倍。现从事于一家互联网金融交易公司。在公司中负责交易程序设计开发、用户数据处理分析。在工作过程中积累了大量编程经验、大数据处理经验、市场交易经验。我为自己带盐。

上一篇 下一篇

猜你喜欢

热点阅读