大数据大数据,机器学习,人工智能简友广场

Hadoop学习简介

2019-06-24  本文已影响1人  失心菜

      Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统。

      其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统


入门大数据,重点知识清单:

hadoop项目主要包括以下四个模块:

Hadoop学习简介

1.  hadoop Common 为其它hadoop模块提供基础设施

2.  hadoop HDFS 一个可靠、高吞吐量的分布式文件系统

3.  hadoop MapReduce 一个分布式的离线并行计算框架

4.  hadoop YARN 任务调度与资源管理

hadoop生态系统:

Hadoop学习简介

Hadoop:分布式存储、分布式计算、资源调度与任务管理

HDFS、MapReduce、yarn、common

Nutch开源的搜索引擎

Lucene:索引检索工具包;Solr索引服务器

HBase/Cassandra:基于谷歌的BigTable开源的列式存储的非关系型数据库

Hive:基于SQL的分布式计算引擎,同时是一个数据仓库

        Pig:基于Pig Latin脚本的计算引擎

Thrift/Avro:RPC框架,用于网络通信

BigTop:项目测试、打包、部署

Oozie/Azakban:大数据的工作流框架

Chukwa/Scribe/Flume:数据收集框架

Whirr:部署为云服务的类库

Sqoop:数据迁移工具

Zookeeper:分布式协调服务框架

HAMA:图计算框架

Mahout:机器学习框架


        小编会持续更新,希望能和各位一起学习,有什么精彩评论,尽管发言。

上一篇 下一篇

猜你喜欢

热点阅读