数据科学与R语言机器学习与数据挖掘

数据科学

2018-09-12  本文已影响60人  Liam_ml

数据科学家是干什么的,简单的讲就是利用数据去解决某个问题。数据科学家负责对一个数据科学项目从开始到结束的全程指导

一个成功的数据科学项目依靠于定量的目标;良好的方法论;跨学科的互动;可重复性的工作流程

本文介绍一下我认为如何成为一个数据科学家

数据科学项目中的角色

一个数据科学项目并不是真空中进行的,其需要众多角色,技能和工具的协同工作
数据科学中的项目角色如下:

保证出资方的知悉与介入

这对于项目的成功至关重要,根据出资方/老板所能的理解程度,给他们介绍项目的计划,进展,阶段性成果
为了确保出资方签收,你必须与出资方直接交谈,获得一个清晰的目标。务必用量化的语言描述这个目标,这个量化的目标可以是你有效的检查目标是否满足其商业意图,以及你是否拥有高质量的数据和工具去达到这个目标

业务方/客户

业务方/客户代表了模型中最终用户的利益角色,你的模型是谁给谁用的
业务方比较有经验,因此,理想的情况是你可以与他们定期的召开会议,是你的工作与最终用户的需求是一致的。通常,业务方是隶属于一个机构中的不同群组,需要处理项目之外的事情,你有需要以客户容易理解的方式展示成果和进展

数据科学家

数据科学家负责执行使项目成功的所有步骤,包括设定项目战略和保证客户悉知
他们设计项目步骤,挑选数据源,挑选使用工具。精通统计学与机器学习,负责项目计划以及跟踪
更技术层面,数据科学家需要检查数据,数据分析,统计检验以及处理,应用机器学习模型和评价结果

数据架构师

数据架构师负责所有的数据以及存储。这个角色往往是数据科学家团队之外的人来担当。如数据库管理员

运营工程师

运营工程师在获取数据和提交最终结果过程中都是至关重要的项目角色。这关系到最后项目的部署

数据项目的阶段

制定目标(背景与目标)

数据科学项目第一个任务就是指定一个可衡量可以量化的目标。在此阶段,你应该尽可能的了解该项目的背景信息:

通过项目的具体目标可以得出该项目的结束条件和接受条件。有了目标才能集中精力去解决目标。

收集数据

这个阶段往往是最耗时的一个阶段,将可以用到的数据整合到一起,这非常必要:

在这个阶段,对数据尽心基本的探索以及可视化,你将清洗数据,修复数据,转换数据。在这些过程中,你可能会发现这些数据不适合你的问题,或者你还需要其他类型的数据。或者你会发现其他的问题。
甚至,需要去修改或者优化目标。

建立模型

在这里你要从数据中抽取有用的洞察和领悟,以达到你的目标。为了找到数据表达的最好方式和数据建模的最好形式,在建模阶段和清洗阶段会有重叠和反复。
常见的建模任务

模型

一旦有了模型,模型是否满足于你的目标?

展现和编制文档

一旦有了满足成功标准的模型,你将要展示结果给项目方和其他利益方。在部署模型之后,你也需要负责为使用,运行和维护模型的机构编写文档
不同的受众需要不同类型的信息。面向业务的受众需要根据商业度量来理解你的发现所产生的影响。
为最终模型的使用者做展现需要强调该模型如何有助于帮助他们把工作做得更好。

模型的部署与维护

一旦部署上线,意味着数据科学家不再负责模型的日常操作。但是你应该确保模型平稳运行,不会产生灾难性的决策。你也要保证模型的更新

总结:

上一篇 下一篇

猜你喜欢

热点阅读