(译)与Data Analytics with Hadoop作者
我最近与来自马里兰大学修完博士学位的数据科学家Benjamin Bengfort有一次愉快的交谈,同时参与交谈的还有来自于Cloudera的软件工程师Jenny Jim,主要关于他们即将发布的新书“Data Analytics with Hadoop:An Introduction for Data Scientists”
你们为什么决定写作本书?
*****Ben*****:书的内容最初源于我和Jenny共同教授的一门课。课程的主要内容是关于使用Apache Hadoop(尤其是MapReduce)进行分布式计算,但是参加课程的学生有很强的统计学或者学术研究背景。基于这些教学实践,Jenny和我很快意识到从计算机科学家/程序员的视角学习Hadoop或者Apache Spark会和从数据科学家视角学习有很大不同。不幸的是,大部分教程或者书籍都着眼于了解分布式系统和Linux系统管理的程序员的视角,然而于此同时,数据科学家成为使用Hadoop和Spark进行数据分析和数据管理的主力用户。
同时,Jenny和我都在数据小组工作,我们了解拥有大量和丰富的数据集但又无法使用RDBMS处理以供查询或者能够倒入预测模型是多么令人沮丧的事情。我们想写作此书帮助数据分析新人打破枷锁。
谁是目标读者?
*****Ben******:我们的目标读者是数据科学家,拥有丰富技能栈如编程,分析,建模,可视化,商业,研究和服务器管理但又都不够深入的技术型个体。我们假设这个数据科学家熟悉R或者Python,而不是系统性编程语言像是Java或者C。除此以外,我们希望读者使用过数据管理工具像是关系型数据库,但是并不擅长Linux*系统管理。这个描述涵盖了具有不同经验的各种人群:从努力完成课程的初学者,到还没用过分布式计算的专业研究人员。
我们的第二目标读者群体完全刚接触Hadoop。我们希望我们的书能够作为一个轻量级的桥梁,帮助他们了解分布式概念和Hadoop生态系统。
*****Jenny*****:我想补充的是我们的目标读者包括数据分析师和数据科学家。这些读者很可能来自统计或分析背景,同时对于数据挖掘,统计模型,预测分析或者机器学习有很好的理解。不仅如此,我们假设我们的读者擅长在本地主机上使用Python编程处理统计分析问题和建模问题,但是想要学习在基于分布式计算的集群上如何处理更大的数据集。
# 读者能从中学到什么****?****它和市场上其它同类书籍是如何相互补充的?
*****Jenny******:读者将会学习到Hadoop中分布式集群计算的基本概念,Hadoop和Spark中编程API的高级特性,以及能够切实帮助读者构建基于Hadoop的大数据平台的有用的生态系统工具。我们同时也介绍了一些Spark内置的用于分析和机器学习的API,包括DataFrames API和MLlib.*
*****Ben*****:我们期望读者首先能够熟悉集群。大多数新手只体验过单机计算,他们关于计算的概念必须改变到分布式计算的环境下。我们的书不会太深入的讲解API或者MapReduce和Spark和核心特性,也不会深入讲解Hadoop的架构,也不会深入生态系统工具,分析该概念和机器学习。然而,我们会覆盖这些知识点,指引读者找到完成工作所需的资料。
从这个角度,我们认为我们的书适合任何对Hadoop和Spark感兴趣的读者。我们提供足够多的术语和概念是你感觉无助,然后我们指点你找到你感兴趣的内容。
你感觉自从你开始涉足到目前数据科学实践已经发生了变化吗?
*****Ben******:我所了解的变化主要在2个方向上:一是脱离计算机科学方法回归到更传统的研究和分析方法,二是趋向使用机器学习方法。机器学习最让人着迷的地方是它是骇客的艺术,意味着你并不需要大学学位就可以使用它。越来越多的是,我们正看到“入学水平”*科学家:通过全新的方式学习数据科学的家伙们,他们了解很多工具和技术的使用,更重要的是他们能够利用数据,代码和分析工具创造产品。当然,我希望用分布式计算工具武装更多的数据科学家,这有助于他们开发更酷的产品。
*****Jenny*****:毫无疑问的是,大数据技术的快速更新迭代正在向数据科学领域引入更多的工具,处理能力甚至是算法(例如神经网络和深度学习)。我们已经看到复杂分析方法和机器学习算法持续在不同领域和工业界的使用案例。但与此同时这些趋势已经对能从数据资产中挖掘出何种新观点以及数据资产类型产生了显著影响,基础数据科学方法中的加载,清洗,探索和建模依然是主流。然而,我们看到了从数据科学实践中提高产出的期待,最终的结果应该是可复用的数据产品而不是数据分析方法。
如果你们希望读者们读完本书后做一件事,它会是什么?
*****Jenny******:能从读者那里了解他们使用Hadoop和Spark的经验会很爽。Cloudera*正在做的生意是让数据分析师更方便的使用这些工具,但是我们仍然可以做很多事来缩小技术和它们所处理的问题之间的鸿沟。希望这本书是读者们开始大数据之旅的第一站,同时也是我们和读者进行持续对话和工作的开始。
*****Ben*****:至于我嘛,我希望他们在开始实践之前把这本书多读几遍。到此为止我才希望他们搭建一个小型集群,无论是用伪分布式模式或者是在Amazon EC2上,然后试一下书中的例子。然后,读者想做什么完全取决于他们自己了,比如本书中一个话题的深度阅读。
********原文链接********
Meet the Authors: “Data Analytics with Hadoop” from O’Reilly Media