我爱编程

数据的处理及未来

2018-05-26  本文已影响19人  乘瓠散人

数据的处理

Hadoop

Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的高速运算和存储能力。Hadoop构建了一个分布式文件系统,Hadoop Distributed File System(HDFS),HDFS有着高容错性,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样就可以以流的形式访问文件系统中的数据。

Spark

Spark被称为下一代计算平台,它立足于内存计算,从多迭代批量处理出发,兼容并蓄数据仓库、流处理和图计算等多种计算范式。
Spark是基于内存计算的集群计算系统,设计目标是让数据分析更加快速,提供比Hadoop更上层的API,支持交互查询和迭代计算。
Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Spark程序工作在两个空间中:Scala原生数据空间和Spark RDD空间

数据的未来

智慧城市

智慧城市基于互联网、云计算等新一代信息技术以及维基、社交网络、FabLab、LivingLab、综合集成法等工具和方法的应用,营造有利于创新涌现的生态。利用信息和通信技术(ICT),可以令城市生活更加智能化,使我们高效利用资源,促进成本和能源的节约,改进服务交付和生活质量,减少对环境的影响,支持创新和低碳经济。
智慧城市的四个特征:全面透彻的感知,宽带泛在的互联、智能融合的应用以及以人为本的可持续创新。

智慧医疗

在医疗服务行业上,大数据可应用于临床诊断、远程监控、药品研发、防止医疗诈骗等方面。
医疗领域的数据有几种类型,第一种是医学影像的数据,像X光,CT等。
第二种是电子病例、电子健康档案。第三种是和基因组学、蛋白组学等新的治疗技术相关的。

可穿戴技术

可穿戴技术是指探索和创造能直接穿在身上,或是整合进用户的衣服或配件的设备的科学技术。
之所以要开发可穿戴技术,是为了通过“内在连通性”,实现快速的数据获取。通过超快的分享内容能力,高效的保持社交联系,摆脱传统的手持设备而获得无缝的网络访问体验。

上一篇 下一篇

猜你喜欢

热点阅读