疫情防控的关键武器:大数据!十个关键知识点和一本书等你GET!
在如今的移动互联网时代,人们生活的方方面面几乎都已经被数据化了。在这样的大背景下,全社会运用大数据技术,支撑了此次新冠肺炎的防控工作,开启了一场大数据与病毒赛跑的抗疫战争。大数据技术,将很可能成为人们最终制胜的关键武器之一。
在疫情爆发后,全社会迅速搭建了国家、省、市、区/县、乡/镇/街道甚至村/社区的多级、多部门的疫情防控数据平台。其它包括医院、住宿、交通、媒体以及一些大型社会企业,也都构建了自己的数据平台,并汇聚了大量的防疫数据信息。
然而,这些各级、各部门、各机构、和各企业的数据平台,并非是由某一个企业或组织集中进行建设,并对数据进行统一采集和使用的。各级部门以及相关机构和企业,只需根据实际需要,按照相应的权限,将分散在不同平台上的各式各样的海量数据进行横向打通和综合分析即可,从而实现数据的纵向调取和灵活使用,为全社会的群防群治、联防联治提供了科学、有效的支撑,并实现了及时、准确的信息传递。包括我们日常关注的疫情地图、迁徙地图等等,这些都是大数据相关技术的功劳!
那么,究竟什么是大数据呢?就只是我们看到的那些信息量丰富、展现形式生动、能互动能关联的大数据看板么?其实,这些大数据看板,只是大数据技术针对具体行业应用的最终输出成果,或者说是大数据技术中的一个重要分支:数据可视化。而大数据的核心技术,在于一系列的数据采集、存储、查询、计算和分析等等。这些基础技术与行业应用,共同构成了目前生机勃勃的大数据产业。
大数据产业,是指建立在互联网、物联网、云计算等渠道广泛且拥有海量数据资源基础上的数据存储、价值提炼、智能处理以及信息分发与展示的IT服务业。而大数据分析,则通常致力于从任何数据中挖掘并获得可转换为业务执行策略的洞察力,包括隐藏在非结构化数据中的洞察力。
2009年,大数据的概念开始形成,最早由甲骨文、思科、IBM等公司的倡议发展起来,并逐渐成为互联网信息技术行业的热门词汇。
2011年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中指出,数据已经渗透到每一个行业和业务职能领域,并逐渐成为重要的生产因素。
2012年,被誉为最早洞见大数据时代发展趋势的数据科学家之一的维克托-迈尔-舍恩伯格,出版了《大数据时代》一书,此书的观点既大胆又新颖,引起了社会很大的反响。
如今,大数据正深刻影响着各行各业,大数据知识,已不再是一项仅供“码农”和“IT男”们学习的专业知识了,而应成为移动互联网时代的一种通识知识。除了需要直接进行大数据处理的技术人员外,包括产品、运营、市场、甚至管理人员等,都需要了解一些大数据的知识,这对提升自己的需求分析能力、数据运营能力、市场研究能力以及科学管理能力等,都将大有裨益。当然,作为非技术人员,只需要能够从基本概念和应用场景的层面,对大数据相关的知识,有个基本了解即可。
不过,初学大数据,该如何下手呢?大数据的知识点很多,哪些是学习重点呢?我是XX行业从事XX岗位工作的,我应该学习大数据的哪些知识,以及学习到什么深度呢?针对这些问题,一两句话很难解释清楚,但可以肯定的是,指望着看一两篇文章就学会大数据的基本知识,那肯定是不现实的。大家可以找一些评价不错的大数据相关入门书籍看看,一窥门径之后,答案也就不言自明了,自己也就知道自己该重点继续学些什么了。
下面列举了一些大数据相关的热门知识点,可以让大家对大数据的一些重要概念或工具有个基本了解,并能够对其应用场景有所认知。此外,这里还有本《大数据处理之道》电子书,不到300页的入门读物。在这本书中,下面的这些知识点,都有一些涉及,仅供内部学习。
1.Hadoop:是一个能够对大量数据进行分布式处理的软件框架。Hadoop典型的应用有:数据检索、日志处理、推荐系统、数据分析、数据存储等。
2.HDFS:是Hadoop的核心组成部分,支持流数据的读取和处理超大规模文件,并能够运行在由廉价的普通机器组成的集群上。
3. MapReduce:是一种简化并行计算的编程模型,它使得那些没有多少并行计算经验的开发人员也可以开发并行应用程序。
4.Yarn:是一个资源调度平台,主要负责给任务分配资源,所有满足条件的框架都可以使用Yarn来进行资源调度。
5.Hbase:是Hadoop的重要组件,它是一个nosql 数据库(非关系型数据库,区别于Oracle、MySQL等关系型数据库),底层的数据存储在HDFS上。
6.Zookeeper:是Hadoop的重要组件,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
7.Hive:是Hadoop的重要组件,它是一个数据仓库工具,用来进行数据提取、转化、加载,能将结构化的数据文件映射为一张数据库表,能将SQL语句转变成MapReduce任务来执行。
8.Storm:是一个实时计算框架,和hadoop的区别就是,hadoop是对离线的海量数据进行处理,而storm是对实时新增的数据进行逐条处理,从而可以保证数据处理的时效性。
9.Spark:是一种通用的大数据计算框架,和hadoop的区别就是,Hadoop更擅长进行大数据的存储以及资源调度,而Spark主要用于大数据的计算。
10. Elastic Stack:前身缩写是ELK/BELK,是一套完整的大数据处理软件,能够实现数据的采集、转换到存储分析、可视化,帮助企业快速构建自己的大数据应用平台。这套软件是四个不同产品的集合,各司其职。
以上十个知识点,在前面提到的电子书中,都或多或少有些介绍,能够让大家初窥门径。不过,大数据是一个不断演变的概念,只有学以致用,才能不断发现和兑现这项技术巨大的实用价值。
欢迎朋友们关注、评论、转发。