spark程序员数据科学家

简单之极,搭建属于自己的Data Mining环境(Spark版

2016-09-28  本文已影响623人  乐平汪二
...

插曲:封笔约138天,一方面是由于换了方向,跳到了互金行业,有调整期。一方面是途中体验了下在线直播,尝尝鲜。但的确难忍想写点文字的瘾,说出来连自个都不信,反正我今天要解瘾了,不过也是为了拉个票。

铺垫:数据挖掘工程师是一个公司编制为数不多的岗位(你也许懂~)。对于新人,如果它是你的目标,你需要真正理解“挖掘”和“工程”的关联性和重要性,缺一不可;也希望你能区分它与分析师的差异性;更期待你能够知晓这个岗位在数据产品里的角色性,因为这些对于你如何去成为一位数据挖掘工程师来说,很重要!

第一步 : Java安装和配置(1.7或者1.8)

环境变量设置

a.新建JAVA_HOME,为C:\Program Files\Java\jdk1.8.0_20。
b.新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
c.编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”

考虑到有不少读者非软件专业,因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示:

成功安装java的显示

第二步 : IDE安装和配置(Eclipse或者Spring Tool Suite)

STS解压后应用程序

在后期使用IDE时,考虑到个人有代码洁癖,因此,我都推荐先设置好这几点:a.字体大小和类型,b.缩进方式,c.代码行数序号

第三步 : IDE插件的加载

第四步 : Maven的安装配置

MAVEN的全局变量和路径设置 Maven安装成功的显示

第五步 : hadoop包的下载配置

配置hadoop的全局变量和路径

第六步 : hadoop插件的加载配置

将hadoop插件放置于bin目录下

第七步 : spark包的下载配置

配置Spark的全局变量和路径

通过上述的安装,可以通过下面的显示来验证是否成功

Spark配置成功的显示

第八步 : scala环境的安装配置

scala成功安装的显示图

第九步 : scala ide集成插件的加载配置

scala ide集成插件复制到sts指定目录

至此,通过以上9个步骤的下载、安装和配置,一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代,有部署过程中遇到问题的小伙伴,也可以积极将问题和截图发到评论里,一起进行解决。

Step1:创建MAVEN工程

创建Maven工程中的步骤一 创建Maven工程中的步骤二

Step2:创建工程中的对象

创建Maven工程中的对象 创建成功显示图

Step3:配置好pom.xml文件,下载相关Spark依赖包

修改pom.xml文件,添加工程依赖包坐标

Step4:写一个朴素贝叶斯模型里涉及先验概率计算的逻辑,后期深入的开发等着以后的文章吧!

代码逻辑,让大家看看模样

附录:本文属于《以什么姿势进入数据挖掘会少走弯路》系列章节,首发于infoQ,链接地址。目前为第四篇,以往的链接地址为《以什么姿势进入DataMining会少走弯路?》《一种新思想去解决大矩阵相乘》《你知道DataMining缺乏模块化思维的后果?》

注:其他商业平台转载需联系infoQ进行授权,杜绝私自转载!

=======================================
最后一句,希望各位看官都能够点击投票链接,选择3号,为我投一个票,十分感谢,感情也能够细水长流撒!

选中这个 输入验证码,提交就OK了
上一篇 下一篇

猜你喜欢

热点阅读